Binning in datamining

| | | | | | | | | |

Databinning, bucketing is een methode voor gegevensvoorverwerking die wordt gebruikt om de effecten van kleine observatiefouten te minimaliseren. De oorspronkelijke gegevenswaarden ‚Äã‚Äãworden verdeeld in kleine bereiken die bins worden genoemd en worden vervolgens vervangen door een algemene berekende waarde voor die bak. Dit heeft een gladmakend effect op de invoergegevens en kan ook de kans op overfitting verkleinen in het geval van kleine gegevenssets.

Er zijn 2 methoden om gegevens in hokjes te verdelen:

  • Binning met gelijke frequentie: bakken hebben een gelijke frequentie.
  • Binnin van gelijke breedteg: bakken hebben dezelfde breedte, waarbij een bereik van elke bak is gedefinieerd als [min + w], [min + 2w] ‚Ķ. [min + nw] waarbij w = (max ‚Äì min) / (aantal bins).

Gelijke frequentie binning

Invoer:[5, 10, 11 , 13, 15, 35, 50, 55, 72, 92, 204, 215] Uitgang: [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] 

Binning met gelijke breedte:

Invoer: [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] Uitvoer: [5, 10, 11, 13, 15, 35, 50, 55, 72] [92] [204, 215] 

Implementatie van Binning-techniek

# gelijke frequentie def equifreq(arr1, m) : a = len(arr1) n = int(a / m) voor i in bereik (0, m): arr = [] voor j in bereik (i * n, (i + 1) * n): als j > = a: break arr = arr + [arr1[j]] print(arr) # gelijke breedte def equiwidth(arr1, m): a = len(arr1) w = int((max(arr1) - min(arr1)) / m) min1 = min(arr1) arr = [] voor i binnen bereik (0, m + 1): arr = arr + [min1 + w * i] arri=[] voor i binnen bereik (0, m): temp = [] voor j in arr1: if j >= arr[i] en j <= arr[i+1]: temp += [j] arri += [temp] print(arri) # gegevens die moeten worden weggegooid gegevens = [5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215] # aantal bins m = 3 print("gelijke frequentie binning") equifreq(data, m) print(" gelijke breedte binning") equiwidth(data, 3) 

Uitvoer:

gelijke frequentie binning [5, 10, 11, 13] [15, 35, 50, 55] [72, 92, 204, 215] binning van gelijke breedte [[5, 10, 11, 13, 15, 35, 50, 55, 72 ], [92], [204, 215]] 

Wat is Data Binning?

Binning, ook wel discretisatie genoemd, is een techniek om de kardinaliteit van continue en discrete gegevens te verminderen. Categorisatie groepeert gerelateerde waarden ‚Äã‚Äãin categorieën om het aantal verschillende waarden te verminderen.

Categorisatie kan het gebruik van hulpbronnen en de responstijd van modelbouw aanzienlijk verbeteren, zonder significant verlies in modelkwaliteit. Categorisatie kan de kwaliteit van het model verbeteren, waardoor de relatie tussen attributen wordt versterkt.

Bewaakte binning is een vorm van intelligente binning waarbij belangrijke kenmerken van de gegevens worden gebruikt om de grenzen van de bin te bepalen. Bij gesuperviseerde binning worden de limieten van de bin geïdentificeerd door een beslisboom met één voorspeller die rekening houdt met de gezamenlijke distributie met de bestemming. Gecontroleerde categorisatie kan worden gebruikt voor numerieke en categorische kenmerken.





Beeldgegevensverwerking

In de context van beeldverwerking is binning het proces van het combineren van een groep pixels tot een enkele pixel. Dus met 2x2 binning wordt de array van 4 pixels een grotere pixel [1], waardoor het totale aantal pixels afneemt.

Deze aggregatie, die gepaard gaat met informatieverlies, vermindert de hoeveelheid gegevens die moet worden verwerkt, waardoor de analyse wordt vergemakkelijkt. Het groeperen van gegevens kan bijvoorbeeld ook het effect van leesruis op het verwerkte beeld verminderen (ten koste van een lagere resolutie).

Voorbeeld van gebruik

Histogrammen zijn een voorbeeld van gegevensaggregatie gebruikt om de onderliggende distributies te observeren. Ze komen meestal voor in een eendimensionale ruimte en met regelmatige tussenpozen zodat ze gemakkelijk kunnen worden bekeken.

Gegevensfusie kan worden gebruikt wanneer kleine instrumentele verschuivingen in spectrale meting van massaspectrometrie (MS) of nucleaire magnetische resonantie (NMR) experimenten zijn verkeerd geïnterpreteerd als representatief voor verschillende componenten wanneer een set gegevensprofielen wordt ingediend. tot een patroonherkenningsanalyse. Een eenvoudige manier om dit probleem op te lossen, is door clusteringtechnieken te gebruiken die de spectrale resolutie net genoeg verminderen om ervoor te zorgen dat een bepaalde piek in zijn bak blijft ondanks kleine spectrale verschuivingen tussen analyses. In NMR kan de chemische verschuivingsas bijvoorbeeld worden gediscretiseerd en ruwweg worden verdeeld in intervallen, en in MS kunnen spectrale nauwkeurigheden worden afgerond op hele waarden ‚Äã‚Äã van atomaire massa-eenheden. Bovendien bevatten sommige digitale camerasystemen automatische pixelgroepering om het beeldcontrast te verbeteren.

Binning wordt ook gebruikt bij machine learning om een methode voor het verbeteren van een beslissingsboom te versnellen voor gecontroleerde classificatie en regressie in algoritmen zoals Microsoft LightGBM en de gradiënt. classificatieboom voor amplificatie. gebaseerd op het scikit-learn histogram.

Voordelen (voordelen) van data smoothing

De data smoothing verduidelijkt de begrijpelijkheid van verschillende belangrijke verborgen patronen in de dataset. Data smoothing kan worden gebruikt om trends te voorspellen. Voorspellingen zijn erg handig bij het nemen van de juiste beslissingen op het juiste moment.

Data smoothing helpt om nauwkeurige resultaten uit de data te halen.

Nadelen van data smoothing

Data smoothing geeft niet altijd een duidelijke verklaring van de patronen tussen de data. Het is mogelijk dat bepaalde gegevenspunten worden genegeerd door de andere gegevenspunten scherp te stellen.

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method