डेटा माइनिंग में बिनिंग

| | | | | | | | | | | | | | | | | | | | | | | |

डेटा बिनिंग, बकेटिंग एक डेटा पूर्व-प्रसंस्करण विधि है जिसका उपयोग छोटी अवलोकन त्रुटियों के प्रभावों को कम करने के लिए किया जाता है। मूल डेटा मान को छोटी श्रेणियों में विभाजित किया जाता है जिन्हें बिन कहा जाता है और फिर उस बिन के लिए एक समग्र परिकलित मान द्वारा प्रतिस्थापित किया जाता है। यह इनपुट डेटा पर एक सहज प्रभाव डालता है और छोटे डेटा सेट के मामले में ओवरफिटिंग की संभावना को भी कम कर सकता है।

डेटा को बॉक्स में विभाजित करने के 2 तरीके हैं:

  • समान फ़्रीक्वेंसी बिनिंग: बिन्स की फ़्रीक्वेंसी समान होती है।
  • समान चौड़ाई बिनिनg: बिन्स की चौड़ाई समान होती है और प्रत्येक बिन की एक सीमा निर्धारित की जाती है के रूप में [मिनट + डब्ल्यू], [मिनट + 2 डब्ल्यू] । [मिनट + nw] जहां w = (अधिकतम मिनट) / (डिब्बे की संख्या)।

समान आवृत्ति बिनिंग

इनपुट:[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] आउटपुट: [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215]  

समान चौड़ाई बिनिंग:

इनपुट: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] आउटपुट: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

बिनिंग तकनीक का कार्यान्वयन

# बराबर आवृत्ति def equifreq(arr1, m) : a = len(arr1) n = int(a / m) के लिए i रेंज में (0, m): arr = [] j रेंज में (i * n, (i + 1) * n) के लिए: यदि j > = ए: ब्रेक एआर = एआर + [एआर 1 [जे]] प्रिंट (एआर) # बराबर चौड़ाई डेफ इक्विविथ (एआर 1, एम): ए = लेन (एआर 1) डब्ल्यू = इंट ((अधिकतम (एआर 1) - मिनट (एआर 1)) / m) min1 = min(arr1) arr = [] i के लिए रेंज में (0, m + 1): arr = arr + [min1 + w * i] arri=[] मैं रेंज में (0, m) के लिए: अस्थायी = [] arr1 में j के लिए: यदि j >= arr[i] और j <= arr[i+1]: temp += [j] arri += [temp] प्रिंट (arri) # डेटा को बिन्ड किया जाना है = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # की संख्या डिब्बे एम = 3 प्रिंट ("बराबर आवृत्ति बिनिंग") इक्विफ़्रेक (डेटा, एम) प्रिंट ("बराबर चौड़ाई बिनिंग") इक्विविथ (डेटा, 3) 

आउटपुट:

समान आवृत्ति बिनिंग [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] बराबर चौड़ाई की बिनिंग [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]] 

डेटा बिनिंग क्या है?

बिनिंग, जिसे विवेकीकरण भी कहा जाता है, निरंतर और असतत डेटा की कार्डिनैलिटी को कम करने की एक तकनीक है। अलग-अलग मूल्यों की संख्या को कम करने के लिए श्रेणियों में वर्गीकरण समूह संबंधित मान।

वर्गीकरण से संसाधन उपयोग और मॉडल निर्माण प्रतिक्रिया समय में नाटकीय रूप से सुधार हो सकता है, बिना मॉडल गुणवत्ता में महत्वपूर्ण नुकसान के। वर्गीकरण मॉडल की गुणवत्ता में सुधार कर सकता है, विशेषताओं के बीच संबंध को मजबूत कर सकता है।

पर्यवेक्षित बिनिंग बुद्धिमान बिनिंग का एक रूप है जिसमें डेटा की महत्वपूर्ण विशेषताओं का उपयोग बिन की सीमा निर्धारित करने के लिए किया जाता है। पर्यवेक्षित बिनिंग में, बिन की सीमाओं को एकल-भविष्यवक्ता निर्णय वृक्ष द्वारा पहचाना जाता है जो गंतव्य के साथ संयुक्त वितरण को ध्यान में रखता है। पर्यवेक्षित वर्गीकरण का उपयोग संख्यात्मक और श्रेणीबद्ध विशेषताओं के लिए किया जा सकता है।





इमेज डेटा प्रोसेसिंग

इमेज प्रोसेसिंग के संदर्भ में, बाइनिंग पिक्सल के समूह को एक पिक्सल में संयोजित करने की प्रक्रिया है। इसलिए, 2x2 बिनिंग के साथ, 4 पिक्सेल सरणी एक बड़ा पिक्सेल [1] बन जाता है, जिससे पिक्सेल की कुल संख्या कम हो जाती है।

यह एकत्रीकरण, सूचना हानि से जुड़ा होने पर, संसाधित किए जाने वाले डेटा की मात्रा को कम करता है, जिससे विश्लेषण में सुविधा हो। उदाहरण के लिए, डेटा को समूहीकृत करना संसाधित छवि पर (कम रिज़ॉल्यूशन की कीमत पर) पढ़ने के शोर के प्रभाव को भी कम कर सकता है।

उपयोग का उदाहरण

हिस्टोग्राम डेटा एकत्रीकरण का एक उदाहरण है अंतर्निहित वितरण का निरीक्षण करने के लिए उपयोग किया जाता है। वे आम तौर पर एक-आयामी अंतरिक्ष में और आसानी से देखने के लिए नियमित अंतराल पर होते हैं।

डेटा फ्यूजन का उपयोग तब किया जा सकता है जब मास स्पेक्ट्रोमेट्री (एमएस) या परमाणु चुंबकीय अनुनाद (एनएमआर) प्रयोगों के वर्णक्रमीय माप में छोटे वाद्य बदलाव होते हैं जब डेटा प्रोफाइल का एक सेट सबमिट किया जाता है तो विभिन्न घटकों का प्रतिनिधित्व करने के रूप में गलत व्याख्या की जाती है। एक पैटर्न मान्यता विश्लेषण के लिए। इस समस्या को हल करने का एक आसान तरीका क्लस्टरिंग तकनीकों का उपयोग करना है जो स्पेक्ट्रल रिज़ॉल्यूशन को कम कर देता है ताकि यह सुनिश्चित हो सके कि विश्लेषण के बीच छोटे वर्णक्रमीय बदलावों के बावजूद दी गई चोटी अपने बिन में रहती है। उदाहरण के लिए, एनएमआर में, रासायनिक शिफ्ट अक्ष को अलग किया जा सकता है और मोटे तौर पर अंतराल में विभाजित किया जा सकता है, और एमएस में, वर्णक्रमीय सटीकता को परमाणु द्रव्यमान इकाइयों के पूरे मूल्यों के लिए गोल किया जा सकता है। इसके अतिरिक्त, कुछ डिजिटल कैमरा सिस्टम में इमेज कंट्रास्ट को बेहतर बनाने के लिए स्वचालित पिक्सेल ग्रुपिंग शामिल है।

बिनिंग का उपयोग मशीन लर्निंग में पर्यवेक्षित वर्गीकरण और माइक्रोसॉफ्ट लाइटजीबीएम और ग्रेडिएंट जैसे एल्गोरिदम में रिग्रेशन के लिए निर्णय ट्री सुधार विधि में तेजी लाने के लिए भी किया जाता है। प्रवर्धन वर्गीकरण वृक्ष। स्किकिट-लर्न हिस्टोग्राम पर आधारित।

डेटा स्मूथिंग के लाभ (पेशेवरों)

डेटा स्मूथिंग डेटा सेट में विभिन्न महत्वपूर्ण छिपे हुए पैटर्न की समझ को स्पष्ट करता है। रुझानों की भविष्यवाणी करने के लिए डेटा स्मूथिंग का उपयोग किया जा सकता है। पूर्वानुमान सही समय पर सही निर्णय लेने में बहुत मददगार होते हैं।

डेटा स्मूथिंग डेटा से सटीक परिणाम प्राप्त करने में मदद करता है।

डेटा स्मूथिंग के नुकसान

डेटा स्मूथिंग हमेशा डेटा के बीच पैटर्न की स्पष्ट व्याख्या प्रदान नहीं करता है। अन्य डेटा बिंदुओं पर ध्यान केंद्रित करके कुछ डेटा बिंदुओं को अनदेखा करना संभव है।