Veri Madenciliğinde Binning

| | | | | | | | | |

Veri gruplandırma, kovalama, küçük gözlem hatalarının etkilerini en aza indirmek için kullanılan bir veri ön işleme yöntemidir. Orijinal veri değerleri ‚Äã‚Äã, kutular olarak bilinen küçük aralıklara bölünür ve ardından bu kutu için hesaplanan genel bir değerle değiştirilir. Bunun giriş verileri üzerinde yumuşatıcı bir etkisi vardır ve ayrıca küçük veri kümeleri durumunda fazla sığdırma olasılığını da azaltabilir.

Verileri kutulara bölmenin 2 yöntemi vardır:

  • Eşit Frekans Gruplama: kutular eşit frekansa sahiptir.
  • Equal Width Binning: kutular eşit genişliğe sahiptir ve her kutunun bir aralığı tanımlanır [dk + w], [dk + 2w] ‚Ķ olarak. [min + nw] burada w = (maks ‚Äì min) / (bölme sayısı).

Eşit Frekans gruplama

Giriş:[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] Çıktı: [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] 

Eşit Genişlik gruplama:

Girdi: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] Çıktı: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

Binning Tekniğinin Uygulanması

# eşit frekans def equifreq(dizi1, m) : a = len(arr1) n = int(a / m) i in range(0, m): arr = [] for j in range(i * n, (i + 1) * n): eğer j > = a: ara dizi = dizi + [dizi1[j]] print(arr) # eşit genişlik def equiwidth(dizi1, m): a = len(dizi1) w = int((maks(dizi1) - min(dizi1)) / m) min1 = min(arr1) arr = [] i aralığında (0, m + 1): dizi = dizi + [dk1 + w * i] arri=[] i aralığında (0, m): arr1`de j için temp = []: if j >= arr[i] ve j <= arr[i+1]: temp += [j] arr += [temp] print(arri) # bindirilecek veri = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # no bins m = 3 print("eşit frekans gruplama") equifreq(veri, m) print(" eşit genişlikte gruplama") equiwidth(veri, 3) 

Çıktı:

eşit frekans gruplama [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] eşit genişlikte gruplama [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]] 

Veri Bindirme Nedir?

Binning, ayrıklaştırma olarak da adlandırılır, sürekli ve ayrık verilerin önemliliğini azaltmak için bir tekniktir. Kategorilendirme, farklı değerlerin sayısını azaltmak için ilgili değerleri kategorilere ayırır.

Kategorilendirme, model kalitesinde önemli bir kayıp olmadan kaynak kullanımını ve model oluşturma yanıt süresini önemli ölçüde iyileştirebilir. Sınıflandırma, özellikler arasındaki ilişkiyi güçlendirerek modelin kalitesini iyileştirebilir.

Gözetimli gruplama, kutunun sınırlarını belirlemek için verilerin önemli özelliklerinin kullanıldığı bir akıllı gruplama biçimidir. Denetimli gruplamada, kutunun sınırları, hedefle ortak dağılımı hesaba katan tek tahminli bir karar ağacı tarafından tanımlanır. Denetimli kategorizasyon, sayısal ve kategorik özellikler için kullanılabilir.





Görüntü verisi işleme

Görüntü işleme bağlamında, gruplama, bir grup pikseli tek bir pikselde birleştirme işlemidir. Böylece, 2x2 gruplama ile 4 piksel dizisi daha büyük bir piksel haline gelir [1], bu da toplam piksel sayısını azaltır.

Bu toplama, bilgi kaybıyla ilişkiliyken işlenecek veri miktarını azaltır, böylece analizi kolaylaştırır. Örneğin, verilerin gruplandırılması, işlenen görüntü üzerindeki okuma gürültüsünün etkisini de azaltabilir (daha düşük çözünürlük pahasına).

Kullanım örneği

Histogramlar, veri toplamanın bir örneğidir. temel dağılımları gözlemlemek için kullanılır. Genellikle tek boyutlu uzayda ve kolay görüntüleme için düzenli aralıklarla meydana gelirler.

Veri füzyonu, kütle spektrometrisi (MS) veya nükleer manyetik rezonans (NMR) deneylerinin spektral ölçümündeki küçük aletsel kaymalar olduğunda kullanılabilir. bir dizi veri profili gönderildiğinde farklı bileşenleri temsil ettiği şeklinde yanlış yorumlanır. bir örüntü tanıma analizine. Bu sorunu çözmenin basit bir yolu, analizler arasındaki küçük spektral kaymalara rağmen belirli bir tepe noktasının kutusunda kalmasını sağlamaya yetecek kadar spektral çözünürlüğü azaltan kümeleme tekniklerini kullanmaktır. Örneğin, NMR`de kimyasal kayma ekseni ayrıklaştırılabilir ve kabaca aralıklara bölünebilir ve MS`de spektral doğruluklar atomik kütle birimlerinin tam değerlerine yuvarlanabilir. Ek olarak, bazı dijital kamera sistemleri, görüntü kontrastını iyileştirmek için otomatik piksel gruplandırmayı içerir.

Binning, Microsoft LightGBM ve gradyan gibi algoritmalarda denetimli sınıflandırma ve regresyon için bir karar ağacı iyileştirme yöntemini hızlandırmak için makine öğreniminde de kullanılır. amplifikasyon sınıflandırma ağacı. scikit-learn histogramına dayalıdır.

Veri düzgünleştirmenin avantajları (artıları)

Veri düzgünleştirme, veri kümesindeki çeşitli önemli gizli kalıpların anlaşılırlığını netleştirir. Trendleri tahmin etmek için veri yumuşatma kullanılabilir. Tahminler, doğru zamanda doğru kararları vermede çok yardımcı olur.

Veri düzgünleştirme, verilerden doğru sonuçlar elde etmeye yardımcı olur.

Veri düzgünleştirmenin dezavantajları

Veri yumuşatma, veriler arasındaki kalıpların her zaman net bir açıklamasını sağlamaz. Diğer veri noktalarına odaklanılarak belirli veri noktalarının yok sayılması mümkündür.

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method