Binning dans l`exploration de données

| | | | | | | | | |

Le regroupement des données, le bucketing est une méthode de prétraitement des données utilisée pour minimiser les effets des petites erreurs d`observation. Les valeurs de données d`origine ‚Äã‚Äãsont divisées en petites plages appelées bacs, puis remplacées par une valeur calculée globale pour ce bac. Cela a un effet de lissage sur les données d`entrée et peut également réduire les risques de surajustement dans le cas de petits ensembles de données.

Il existe 2 méthodes pour diviser les données en cases :

  • Equal Frequency Binning : les bacs ont une fréquence égale.
  • Equal Width Binning : les bacs ont une largeur égale avec une plage de chaque bac définie comme [min + w], [min + 2w] ‚Ķ. [min + nw] où w = (max ‚Äì min) / (nombre de bacs).

Binning de fréquence égale

Entrée :[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] Sortie : [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] 

Regroupement à largeur égale :

Entrée : [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] Sortie : [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

Mise en œuvre de la technique de binning

# fréquence égale def equifreq(arr1, m) : a = len(arr1) n = int(a / m) for i in range(0, m): arr = [] for j in range(i * n, (i + 1) * n): if j > = a: break arr = arr + [arr1[j]] print(arr) # largeur égale def equiwidth(arr1, m): a = len(arr1) w = int((max(arr1) - min(arr1)) / m) min1 = min(arr1) arr = [] for i in range(0, m + 1): arr = arr + [min1 + w * i] arri=[] for i in range(0, m): temp = [] for j in arr1: if j >= arr[i] and j <= arr[i+1]: temp += [j] arri += [temp] print(arri) # data to be binned data = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # nombre de bins m = 3 print("equal frequency binning") equifreq(data, m) print(" equal width binning") equiwidth(data, 3) 

Sortie :

equal frequency regroupement [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] regroupement de largeur égale [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]] 

Qu`est-ce que le Data Binning ?

Le Binning, également appelé discrétisation, est une technique permettant de réduire la cardinalité des données continues et discrètes. La catégorisation regroupe les valeurs associées dans des catégories afin de réduire le nombre de valeurs distinctes.

La catégorisation peut améliorer considérablement l`utilisation des ressources et le temps de réponse de la création de modèles, sans perte significative de la qualité du modèle. La catégorisation peut améliorer la qualité du modèle, en renforçant la relation entre les attributs.

Le regroupement supervisé est une forme de regroupement intelligent dans lequel des caractéristiques importantes des données sont utilisées pour déterminer les limites du regroupement. Dans le casier supervisé, les limites du casier sont identifiées par un arbre de décision à prédicteur unique qui prend en compte la distribution conjointe avec la destination. La catégorisation supervisée peut être utilisée pour les attributs numériques et catégoriques.





Traitement des données d`image

Dans le contexte du traitement d`image, le binning est le processus de combinaison d`un groupe de pixels en un seul pixel. Ainsi, avec le binning 2x2, le tableau de 4 pixels devient un pixel plus grand [1], ce qui diminue le nombre total de pixels.

Cette agrégation, bien qu`associée à la perte d`informations, réduit la quantité de données à traiter, facilitant ainsi l`analyse. Par exemple, le regroupement des données peut également réduire l`effet du bruit de lecture sur l`image traitée (au prix d`une résolution plus faible).

Exemple d`utilisation

Les histogrammes sont un exemple d`agrégation de données utilisé pour observer les distributions sous-jacentes. Ils se produisent généralement dans un espace unidimensionnel et à intervalles réguliers pour une visualisation facile.

La fusion de données peut être utilisée lorsque de petits décalages instrumentaux dans la mesure spectrale des expériences de spectrométrie de masse (MS) ou de résonance magnétique nucléaire (RMN) sont interprétées à tort comme représentant différentes composantes lorsqu`un ensemble de profils de données est soumis. à une analyse de reconnaissance de formes. Un moyen simple de résoudre ce problème consiste à utiliser des techniques de regroupement qui réduisent la résolution spectrale juste assez pour garantir qu`un pic donné reste dans sa case malgré de petits décalages spectraux entre les analyses. Par exemple, en RMN, l`axe de déplacement chimique peut être discrétisé et grossièrement divisé en intervalles, et en MS, les précisions spectrales peuvent être arrondies à des valeurs entières d`unités de masse atomique. De plus, certains systèmes d`appareils photo numériques incluent le regroupement automatique des pixels pour améliorer le contraste de l`image.

Le binning est également utilisé dans l`apprentissage automatique pour accélérer une méthode d`amélioration de l`arbre de décision pour la classification et la régression supervisées dans des algorithmes tels que Microsoft LightGBM et le gradient arbre de classification de l`amplification. basé sur l`histogramme scikit-learn.

Avantages (avantages) du lissage des données

Le lissage des données clarifie la compréhensibilité de divers modèles cachés importants dans l`ensemble de données. Le lissage des données peut être utilisé pour prédire les tendances. Les prédictions sont très utiles pour prendre les bonnes décisions au bon moment.

Le lissage des données permet d`obtenir des résultats précis à partir des données.

Inconvénients du lissage des données

Le lissage des données ne fournit pas toujours une explication claire des modèles entre les données. Il est possible que certains points de données soient ignorés en focalisant les autres points de données.

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method