डेटा माइनिंग में बिनिंग

| | | | | | | | | |

डेटा बिनिंग, बकेटिंग एक डेटा पूर्व-प्रसंस्करण विधि है जिसका उपयोग छोटी अवलोकन त्रुटियों के प्रभावों को कम करने के लिए किया जाता है। मूल डेटा मान को छोटी श्रेणियों में विभाजित किया जाता है जिन्हें बिन कहा जाता है और फिर उस बिन के लिए एक समग्र परिकलित मान द्वारा प्रतिस्थापित किया जाता है। यह इनपुट डेटा पर एक सहज प्रभाव डालता है और छोटे डेटा सेट के मामले में ओवरफिटिंग की संभावना को भी कम कर सकता है।

डेटा को बॉक्स में विभाजित करने के 2 तरीके हैं:

  • समान फ़्रीक्वेंसी बिनिंग: बिन्स की फ़्रीक्वेंसी समान होती है।
  • समान चौड़ाई बिनिनg: बिन्स की चौड़ाई समान होती है और प्रत्येक बिन की एक सीमा निर्धारित की जाती है के रूप में [मिनट + डब्ल्यू], [मिनट + 2 डब्ल्यू] । [मिनट + nw] जहां w = (अधिकतम मिनट) / (डिब्बे की संख्या)।

समान आवृत्ति बिनिंग

इनपुट:[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] आउटपुट: [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215]  

समान चौड़ाई बिनिंग:

इनपुट: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] आउटपुट: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

बिनिंग तकनीक का कार्यान्वयन

# बराबर आवृत्ति def equifreq(arr1, m) : a = len(arr1) n = int(a / m) के लिए i रेंज में (0, m): arr = [] j रेंज में (i * n, (i + 1) * n) के लिए: यदि j > = ए: ब्रेक एआर = एआर + [एआर 1 [जे]] प्रिंट (एआर) # बराबर चौड़ाई डेफ इक्विविथ (एआर 1, एम): ए = लेन (एआर 1) डब्ल्यू = इंट ((अधिकतम (एआर 1) - मिनट (एआर 1)) / m) min1 = min(arr1) arr = [] i के लिए रेंज में (0, m + 1): arr = arr + [min1 + w * i] arri=[] मैं रेंज में (0, m) के लिए: अस्थायी = [] arr1 में j के लिए: यदि j >= arr[i] और j <= arr[i+1]: temp += [j] arri += [temp] प्रिंट (arri) # डेटा को बिन्ड किया जाना है = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # की संख्या डिब्बे एम = 3 प्रिंट ("बराबर आवृत्ति बिनिंग") इक्विफ़्रेक (डेटा, एम) प्रिंट ("बराबर चौड़ाई बिनिंग") इक्विविथ (डेटा, 3) 

आउटपुट:

समान आवृत्ति बिनिंग [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] बराबर चौड़ाई की बिनिंग [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]] 

डेटा बिनिंग क्या है?

बिनिंग, जिसे विवेकीकरण भी कहा जाता है, निरंतर और असतत डेटा की कार्डिनैलिटी को कम करने की एक तकनीक है। अलग-अलग मूल्यों की संख्या को कम करने के लिए श्रेणियों में वर्गीकरण समूह संबंधित मान।

वर्गीकरण से संसाधन उपयोग और मॉडल निर्माण प्रतिक्रिया समय में नाटकीय रूप से सुधार हो सकता है, बिना मॉडल गुणवत्ता में महत्वपूर्ण नुकसान के। वर्गीकरण मॉडल की गुणवत्ता में सुधार कर सकता है, विशेषताओं के बीच संबंध को मजबूत कर सकता है।

पर्यवेक्षित बिनिंग बुद्धिमान बिनिंग का एक रूप है जिसमें डेटा की महत्वपूर्ण विशेषताओं का उपयोग बिन की सीमा निर्धारित करने के लिए किया जाता है। पर्यवेक्षित बिनिंग में, बिन की सीमाओं को एकल-भविष्यवक्ता निर्णय वृक्ष द्वारा पहचाना जाता है जो गंतव्य के साथ संयुक्त वितरण को ध्यान में रखता है। पर्यवेक्षित वर्गीकरण का उपयोग संख्यात्मक और श्रेणीबद्ध विशेषताओं के लिए किया जा सकता है।





इमेज डेटा प्रोसेसिंग

इमेज प्रोसेसिंग के संदर्भ में, बाइनिंग पिक्सल के समूह को एक पिक्सल में संयोजित करने की प्रक्रिया है। इसलिए, 2x2 बिनिंग के साथ, 4 पिक्सेल सरणी एक बड़ा पिक्सेल [1] बन जाता है, जिससे पिक्सेल की कुल संख्या कम हो जाती है।

यह एकत्रीकरण, सूचना हानि से जुड़ा होने पर, संसाधित किए जाने वाले डेटा की मात्रा को कम करता है, जिससे विश्लेषण में सुविधा हो। उदाहरण के लिए, डेटा को समूहीकृत करना संसाधित छवि पर (कम रिज़ॉल्यूशन की कीमत पर) पढ़ने के शोर के प्रभाव को भी कम कर सकता है।

उपयोग का उदाहरण

हिस्टोग्राम डेटा एकत्रीकरण का एक उदाहरण है अंतर्निहित वितरण का निरीक्षण करने के लिए उपयोग किया जाता है। वे आम तौर पर एक-आयामी अंतरिक्ष में और आसानी से देखने के लिए नियमित अंतराल पर होते हैं।

डेटा फ्यूजन का उपयोग तब किया जा सकता है जब मास स्पेक्ट्रोमेट्री (एमएस) या परमाणु चुंबकीय अनुनाद (एनएमआर) प्रयोगों के वर्णक्रमीय माप में छोटे वाद्य बदलाव होते हैं जब डेटा प्रोफाइल का एक सेट सबमिट किया जाता है तो विभिन्न घटकों का प्रतिनिधित्व करने के रूप में गलत व्याख्या की जाती है। एक पैटर्न मान्यता विश्लेषण के लिए। इस समस्या को हल करने का एक आसान तरीका क्लस्टरिंग तकनीकों का उपयोग करना है जो स्पेक्ट्रल रिज़ॉल्यूशन को कम कर देता है ताकि यह सुनिश्चित हो सके कि विश्लेषण के बीच छोटे वर्णक्रमीय बदलावों के बावजूद दी गई चोटी अपने बिन में रहती है। उदाहरण के लिए, एनएमआर में, रासायनिक शिफ्ट अक्ष को अलग किया जा सकता है और मोटे तौर पर अंतराल में विभाजित किया जा सकता है, और एमएस में, वर्णक्रमीय सटीकता को परमाणु द्रव्यमान इकाइयों के पूरे मूल्यों के लिए गोल किया जा सकता है। इसके अतिरिक्त, कुछ डिजिटल कैमरा सिस्टम में इमेज कंट्रास्ट को बेहतर बनाने के लिए स्वचालित पिक्सेल ग्रुपिंग शामिल है।

बिनिंग का उपयोग मशीन लर्निंग में पर्यवेक्षित वर्गीकरण और माइक्रोसॉफ्ट लाइटजीबीएम और ग्रेडिएंट जैसे एल्गोरिदम में रिग्रेशन के लिए निर्णय ट्री सुधार विधि में तेजी लाने के लिए भी किया जाता है। प्रवर्धन वर्गीकरण वृक्ष। स्किकिट-लर्न हिस्टोग्राम पर आधारित।

डेटा स्मूथिंग के लाभ (पेशेवरों)

डेटा स्मूथिंग डेटा सेट में विभिन्न महत्वपूर्ण छिपे हुए पैटर्न की समझ को स्पष्ट करता है। रुझानों की भविष्यवाणी करने के लिए डेटा स्मूथिंग का उपयोग किया जा सकता है। पूर्वानुमान सही समय पर सही निर्णय लेने में बहुत मददगार होते हैं।

डेटा स्मूथिंग डेटा से सटीक परिणाम प्राप्त करने में मदद करता है।

डेटा स्मूथिंग के नुकसान

डेटा स्मूथिंग हमेशा डेटा के बीच पैटर्न की स्पष्ट व्याख्या प्रदान नहीं करता है। अन्य डेटा बिंदुओं पर ध्यान केंद्रित करके कुछ डेटा बिंदुओं को अनदेखा करना संभव है।

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method