Binning na mineração de dados

| | | | | | | | | |

O armazenamento de dados é um método de pré-processamento de dados usado para minimizar os efeitos de pequenos erros de observação. Os valores de dados originais ‚Äã‚Äãsão divididos em pequenos intervalos conhecidos como bins e, em seguida, substituídos por um valor global calculado para esse bin. Isso tem um efeito de suavização nos dados de entrada e também pode reduzir as chances de overfitting no caso de pequenos conjuntos de dados.

Existem 2 métodos de divisão de dados em caixas:

  • Equal Frequency Binning: os bins têm uma frequência igual.
  • Equal Width Binning: os bins têm a mesma largura com um intervalo de cada bin definido como [min + w], [min + 2w] ‚Ķ. [min + nw] onde w = (max ‚Äì min) / (nº de compartimentos).

Blocagem de frequência igual

Entrada:[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] Saída: [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] 

Blocagem de largura igual:

Entrada: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] Saída: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

Implementação da Técnica de Binning

# equal frequency def equifreq(arr1, m) : a = len(arr1) n = int(a / m) para i no intervalo(0, m): arr = [] para j no intervalo(i * n, (i + 1) * n): se j > = a: break arr = arr + [arr1[j]] print(arr) # largura igual def equiwidth(arr1, m): a = len(arr1) w = int((max(arr1) - min(arr1)) / m) min1 = min(arr1) arr = [] para i no intervalo(0, m + 1): arr = arr + [min1 + w * i] arri=[] para i no intervalo(0, m): temp = [] para j em arr1: if j >= arr[i] e j <= arr[i+1]: temp += [j] arri += [temp] print(arri) # dados a serem dados armazenados = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # nº de bins m = 3 print("equal frequency binning") equifreq(data, m) print(" equal width binning") equiwidth(data, 3) 

Saída:

equal frequency binning [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] binning de largura igual [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]] 

O que é Data Binning?

Binning, também chamado de discretização, é uma técnica para reduzir a cardinalidade de dados contínuos e discretos. A categorização agrupa valores relacionados ‚Äã‚Äãem categorias para reduzir o número de valores distintos.

A categorização pode melhorar drasticamente a utilização de recursos e o tempo de resposta da construção do modelo, sem perda significativa na qualidade do modelo. A categorização pode melhorar a qualidade do modelo, fortalecendo a relação entre os atributos.

O binning supervisionado é uma forma de binning inteligente em que características importantes dos dados são usadas para determinar os limites do bin. No binning supervisionado, os limites do bin são identificados por uma árvore de decisão de preditor único que leva em consideração a distribuição conjunta com o destino. A categorização supervisionada pode ser usada para atributos numéricos e categóricos.





Processamento de dados de imagem

No contexto de processamento de imagem, binning é o processo de combinar um grupo de pixels em um único pixel. Assim, com binning 2x2, o array de 4 pixels se torna um pixel maior [1], diminuindo o número total de pixels.

Essa agregação, embora associada à perda de informações, reduz a quantidade de dados a serem processados, facilitando assim a análise. Por exemplo, o agrupamento de dados também pode reduzir o efeito do ruído de leitura na imagem processada (ao custo de uma resolução mais baixa).

Exemplo de uso

Histogramas são um exemplo de agregação de dados usado para observar as distribuições subjacentes. Eles geralmente ocorrem em espaço unidimensional e em intervalos regulares para facilitar a visualização.

A fusão de dados pode ser usada quando pequenas mudanças instrumentais na medição espectral de experimentos de espectrometria de massa (MS) ou ressonância magnética nuclear (NMR) são interpretado erroneamente como representando diferentes componentes quando um conjunto de perfis de dados é enviado. para uma análise de reconhecimento de padrões. Uma maneira simples de resolver esse problema é usar técnicas de agrupamento que reduzem a resolução espectral apenas o suficiente para garantir que um determinado pico permaneça em seu compartimento apesar de pequenas mudanças espectrais entre as análises. Por exemplo, em NMR, o eixo de deslocamento químico pode ser discretizado e dividido aproximadamente em intervalos, e em MS, as acurácias espectrais podem ser arredondadas para valores inteiros ‚Äã‚Äão de unidades de massa atômica. Além disso, alguns sistemas de câmeras digitais incluem agrupamento automático de pixels para melhorar o contraste da imagem.

O binning também é usado no aprendizado de máquina para acelerar um método de melhoria de árvore de decisão para classificação e regressão supervisionada em algoritmos como Microsoft LightGBM e gradiente árvore de classificação de amplificação. baseado no histograma scikit-learn.

Vantagens (prós) da suavização de dados

A suavização de dados esclarece a compreensão de vários padrões ocultos importantes no conjunto de dados. A suavização de dados pode ser usada para prever tendências. As previsões são muito úteis para tomar as decisões certas no momento certo.

A suavização de dados ajuda a obter resultados precisos dos dados.

Desvantagens da suavização de dados

A suavização de dados nem sempre fornece uma explicação clara dos padrões entre os dados. É possível que determinados pontos de dados sejam ignorados focando os outros pontos de dados.

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method