डेटा बिनिंग, बकेटिंग एक डेटा पूर्व-प्रसंस्करण विधि है जिसका उपयोग छोटी अवलोकन त्रुटियों के प्रभावों को कम करने के लिए किया जाता है। मूल डेटा मान को छोटी श्रेणियों में विभाजित किया जाता है जिन्हें बिन कहा जाता है और फिर उस बिन के लिए एक समग्र परिकलित मान द्वारा प्रतिस्थापित किया जाता है। यह इनपुट डेटा पर एक सहज प्रभाव डालता है और छोटे डेटा सेट के मामले में ओवरफिटिंग की संभावना को भी कम कर सकता है।
डेटा को बॉक्स में विभाजित करने के 2 तरीके हैं:
- समान फ़्रीक्वेंसी बिनिंग: बिन्स की फ़्रीक्वेंसी समान होती है।
- समान चौड़ाई बिनिनg: बिन्स की चौड़ाई समान होती है और प्रत्येक बिन की एक सीमा निर्धारित की जाती है के रूप में [मिनट + डब्ल्यू], [मिनट + 2 डब्ल्यू] । [मिनट + nw] जहां w = (अधिकतम मिनट) / (डिब्बे की संख्या)।
समान आवृत्ति बिनिंग
इनपुट:[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] आउटपुट: [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215]समान चौड़ाई बिनिंग:
इनपुट: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] आउटपुट: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215]बिनिंग तकनीक का कार्यान्वयन
# बराबर आवृत्ति def equifreq(arr1, m) : a = len(arr1) n = int(a / m) के लिए i रेंज में (0, m): arr = [] j रेंज में (i * n, (i + 1) * n) के लिए: यदि j > = ए: ब्रेक एआर = एआर + [एआर 1 [जे]] प्रिंट (एआर) # बराबर चौड़ाई डेफ इक्विविथ (एआर 1, एम): ए = लेन (एआर 1) डब्ल्यू = इंट ((अधिकतम (एआर 1) - मिनट (एआर 1)) / m) min1 = min(arr1) arr = [] i के लिए रेंज में (0, m + 1): arr = arr + [min1 + w * i] arri=[] मैं रेंज में (0, m) के लिए: अस्थायी = [] arr1 में j के लिए: यदि j >= arr[i] और j <= arr[i+1]: temp += [j] arri += [temp] प्रिंट (arri) # डेटा को बिन्ड किया जाना है = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # की संख्या डिब्बे एम = 3 प्रिंट ("बराबर आवृत्ति बिनिंग") इक्विफ़्रेक (डेटा, एम) प्रिंट ("बराबर चौड़ाई बिनिंग") इक्विविथ (डेटा, 3)आउटपुट:
समान आवृत्ति बिनिंग [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] बराबर चौड़ाई की बिनिंग [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]]डेटा बिनिंग क्या है?
बिनिंग, जिसे विवेकीकरण भी कहा जाता है, निरंतर और असतत डेटा की कार्डिनैलिटी को कम करने की एक तकनीक है। अलग-अलग मूल्यों की संख्या को कम करने के लिए श्रेणियों में वर्गीकरण समूह संबंधित मान।
वर्गीकरण से संसाधन उपयोग और मॉडल निर्माण प्रतिक्रिया समय में नाटकीय रूप से सुधार हो सकता है, बिना मॉडल गुणवत्ता में महत्वपूर्ण नुकसान के। वर्गीकरण मॉडल की गुणवत्ता में सुधार कर सकता है, विशेषताओं के बीच संबंध को मजबूत कर सकता है।
पर्यवेक्षित बिनिंग बुद्धिमान बिनिंग का एक रूप है जिसमें डेटा की महत्वपूर्ण विशेषताओं का उपयोग बिन की सीमा निर्धारित करने के लिए किया जाता है। पर्यवेक्षित बिनिंग में, बिन की सीमाओं को एकल-भविष्यवक्ता निर्णय वृक्ष द्वारा पहचाना जाता है जो गंतव्य के साथ संयुक्त वितरण को ध्यान में रखता है। पर्यवेक्षित वर्गीकरण का उपयोग संख्यात्मक और श्रेणीबद्ध विशेषताओं के लिए किया जा सकता है।
इमेज डेटा प्रोसेसिंग
इमेज प्रोसेसिंग के संदर्भ में, बाइनिंग पिक्सल के समूह को एक पिक्सल में संयोजित करने की प्रक्रिया है। इसलिए, 2x2 बिनिंग के साथ, 4 पिक्सेल सरणी एक बड़ा पिक्सेल [1] बन जाता है, जिससे पिक्सेल की कुल संख्या कम हो जाती है।
यह एकत्रीकरण, सूचना हानि से जुड़ा होने पर, संसाधित किए जाने वाले डेटा की मात्रा को कम करता है, जिससे विश्लेषण में सुविधा हो। उदाहरण के लिए, डेटा को समूहीकृत करना संसाधित छवि पर (कम रिज़ॉल्यूशन की कीमत पर) पढ़ने के शोर के प्रभाव को भी कम कर सकता है।
उपयोग का उदाहरण
हिस्टोग्राम डेटा एकत्रीकरण का एक उदाहरण है अंतर्निहित वितरण का निरीक्षण करने के लिए उपयोग किया जाता है। वे आम तौर पर एक-आयामी अंतरिक्ष में और आसानी से देखने के लिए नियमित अंतराल पर होते हैं।
डेटा फ्यूजन का उपयोग तब किया जा सकता है जब मास स्पेक्ट्रोमेट्री (एमएस) या परमाणु चुंबकीय अनुनाद (एनएमआर) प्रयोगों के वर्णक्रमीय माप में छोटे वाद्य बदलाव होते हैं जब डेटा प्रोफाइल का एक सेट सबमिट किया जाता है तो विभिन्न घटकों का प्रतिनिधित्व करने के रूप में गलत व्याख्या की जाती है। एक पैटर्न मान्यता विश्लेषण के लिए। इस समस्या को हल करने का एक आसान तरीका क्लस्टरिंग तकनीकों का उपयोग करना है जो स्पेक्ट्रल रिज़ॉल्यूशन को कम कर देता है ताकि यह सुनिश्चित हो सके कि विश्लेषण के बीच छोटे वर्णक्रमीय बदलावों के बावजूद दी गई चोटी अपने बिन में रहती है। उदाहरण के लिए, एनएमआर में, रासायनिक शिफ्ट अक्ष को अलग किया जा सकता है और मोटे तौर पर अंतराल में विभाजित किया जा सकता है, और एमएस में, वर्णक्रमीय सटीकता को परमाणु द्रव्यमान इकाइयों के पूरे मूल्यों के लिए गोल किया जा सकता है। इसके अतिरिक्त, कुछ डिजिटल कैमरा सिस्टम में इमेज कंट्रास्ट को बेहतर बनाने के लिए स्वचालित पिक्सेल ग्रुपिंग शामिल है।
बिनिंग का उपयोग मशीन लर्निंग में पर्यवेक्षित वर्गीकरण और माइक्रोसॉफ्ट लाइटजीबीएम और ग्रेडिएंट जैसे एल्गोरिदम में रिग्रेशन के लिए निर्णय ट्री सुधार विधि में तेजी लाने के लिए भी किया जाता है। प्रवर्धन वर्गीकरण वृक्ष। स्किकिट-लर्न हिस्टोग्राम पर आधारित।
डेटा स्मूथिंग के लाभ (पेशेवरों)
डेटा स्मूथिंग डेटा सेट में विभिन्न महत्वपूर्ण छिपे हुए पैटर्न की समझ को स्पष्ट करता है। रुझानों की भविष्यवाणी करने के लिए डेटा स्मूथिंग का उपयोग किया जा सकता है। पूर्वानुमान सही समय पर सही निर्णय लेने में बहुत मददगार होते हैं।
डेटा स्मूथिंग डेटा से सटीक परिणाम प्राप्त करने में मदद करता है।
डेटा स्मूथिंग के नुकसान
डेटा स्मूथिंग हमेशा डेटा के बीच पैटर्न की स्पष्ट व्याख्या प्रदान नहीं करता है। अन्य डेटा बिंदुओं पर ध्यान केंद्रित करके कुछ डेटा बिंदुओं को अनदेखा करना संभव है।