數據挖掘中的分箱

| | | | | | | | | |

數據分箱、分桶是一種數據預處理方法,用於最大限度地減少小觀測誤差的影響。原始數據值被劃分為稱為 bin 的小範圍,然後由該 bin 的總體計算值替換。這對輸入數據有平滑作用,在小數據集的情況下也可以減少過擬合的機會。

將數據分框有2種方法:

  • 等頻分箱:分箱具有相等的頻率。
  • 等寬分箱g:分箱具有相等的寬度,每個分箱的範圍都已定義如 [min + w], [min + 2w] ‚Ķ。 [min + nw] 其中 w = (max ‚Äì min) / (no of bins)。

等頻分箱

輸入:[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] 輸出:[5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] 

等寬分箱:

輸入:[5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] 輸出: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

分箱技術的實現

#equal frequency def equifreq(arr1, m) : a = len(arr1) n = int(a / m) for i in range(0, m): arr = [] for j in range(i * n, (i + 1) * n): if j > = a: break arr = arr + [arr1[j]] print(arr) # 等寬 def equiwidth(arr1, m): a = len(arr1) w = int((max(arr1) - min(arr1)) / m) min1 = min(arr1) arr = [] for i in range(0, m + 1): arr = arr + [min1 + w * i] arri=[] for i in range(0, m): temp = [] for j in arr1: if j >= arr[i] and j <= arr[i+1]: temp += [j] arri += [temp] print(arri) # 要分箱的數據 data = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # 數量bins m = 3 print("等頻分箱") equifreq(data, m) print("等寬分箱") equiwidth(data, 3) 

輸出:

等頻分箱 [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] 等寬分箱 [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]] 

什麼是數據分箱?

分箱,也稱為離散化,是一種減少連續和離散數據的基數的技術。分類將相關值歸為類別,以減少不同值的數量。

分類可以顯著提高資源利用率和模型構建響應時間,而不會顯著降低模型質量。分類可以提高模型的質量,加強屬性之間的關係。

監督分箱是智能分箱的一種形式,其中使用數據的重要特徵來確定分箱的界限。在有監督的分箱中,分箱的限制由考慮與目的地的聯合分佈的單預測決策樹來確定。監督分類可用於數字和分類屬性。





圖像數據處理

在圖像處理的上下文中,binning是將一組像素組合成單個像素的過程。因此,使用 2x2 分箱,4 像素陣列變成更大的像素 [1],從而減少像素總數。

這種聚合雖然與信息丟失相關,但減少了要處理的數據量,從而便於分析。例如,對數據進行分組還可以減少讀取噪聲對處理後圖像的影響(以降低分辨率為代價)。

使用示例

直方圖是數據聚合的一個示例用於觀察底層分佈。它們通常在一維空間中以固定間隔出現,以便於查看。

當質譜 (MS) 或核磁共振 (NMR) 實驗的光譜測量中的小儀器偏移時,可以使用數據融合在提交一組數據配置文件時被誤解為代表不同的組件。進行模式識別分析。解決這個問題的一個簡單方法是使用聚類技術,降低光譜分辨率,以確保給定的峰保持在其 bin 中,儘管分析之間的光譜偏移很小。例如,在 NMR 中,化學位移軸可以離散化並粗略地劃分為區間,而在 MS 中,光譜精度可以四捨五入到原子質量單位的整數值。此外,一些數碼相機系統包括自動像素分組以提高圖像對比度。

Binning 還用於機器學習中,以加速決策樹改進方法,用於 Microsoft LightGBM 和梯度等算法中的監督分類和回歸放大分類樹。基於 scikit-learn 直方圖。

數據平滑的優點(優點)

數據平滑闡明了數據集中各種重要隱藏模式的可理解性。數據平滑可用於預測趨勢。預測對於在正確的時間做出正確的決策非常有幫助。

數據平滑有助於從數據中獲得準確的結果。

數據平滑的缺點

數據平滑並不總是能清楚地解釋數據之間的模式。通過關注其他數據點,可以忽略某些數據點。

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method