Pandas GroupPar

| | | | | | | | | | | | | | | | | | | | | |

Groupby — notion assez simple. Nous pouvons créer un groupe de catégories et appliquer la fonction aux catégories. C`est un concept simple, mais c`est une technique extrêmement précieuse qui est largement utilisée dans les data scientifique. Dans les projets de data science du monde réel, vous aurez affaire à de grandes quantités de données et d`essayer de faire les choses à plusieurs reprises, donc pour plus d`efficacité, nous utilisons le concept Groupby. Le concept Groupby est vraiment important car il est capable de combiner efficacement les données, tant en termes de performances que de quantité de code. Le regroupement fait principalement référence à un processus impliquant une ou plusieurs des étapes suivantes :

  • Séparation : est un processus dans lequel nous divisons les données en groupes en appliquant certaines conditions aux ensembles de données .
  • Application : est un processus dans lequel nous appliquons une fonction à chaque groupe indépendamment
  • Consolidation : est un processus dans lequel nous combinons différents ensembles de données après avoir appliqué le regroupement et les résultats dans une structure de données

L`image suivante vous aidera à comprendre le processus impliqué dans le concept Groupby.
1. Regroupez les valeurs uniques ‚Äã‚Äãde la colonne "Équipe".

2. Il y a maintenant un bucket pour chaque groupe

3. Mettez d`autres données dans des compartiments

4. Appliquez la fonction à la colonne de poids pour chaque compartiment.

Diviser les données en groupes

Fractionner — c`est un processus dans lequel nous divisons les données en groupes en appliquant certaines conditions aux ensembles de données. Pour séparer les données, nous appliquons certaines conditions aux ensembles de données. Pour séparer les données, nous utilisons groupby () cette fonction est utilisée pour diviser les données en groupes selon certains critères . Les objets Pandas peuvent être subdivisés en n`importe lequel de leurs axes. Une définition abstraite du groupement consiste à fournir un mappage des étiquettes aux noms de groupe. Les ensembles de données Pandas peuvent être divisés en n`importe quels objets. Il existe plusieurs façons de diviser les données, par exemple :

Remarque : ici nous nous référons au regroupement d`objets en tant que clés.
Regroupement de données avec une clé :
Pour regrouper des données avec une clé, nous ne transmettons qu`une seule clé comme argument au groupby fonction.

< br>Nous regroupons maintenant les données Name à l`aide de la fonction groupby () .


# en utilisant la fonction groupby
# avec une clé

df.groupby ( `Nom` )

print (df.groupby< /a> ( `Nom` ). groupes)

Sortie :

Maintenant, nous imprimons les premiers enregistrements dans tous les groupes formés.


# appliquez le Fonction groupby () pour
# grouper les données par nom valeur

gk = df.groupby ( `Name` )


# Imprimer les premières entrées
# dans tous les groupes générés.
gk.first ()

# importation du module pandas

import pandas as pd


# Définir un dictionnaire contenant les données des employés

data1 = { = " string ">` Nom`  : [ `Jai` , `Anuj` , ` Jai` , ` Princi` ,

` Gaurav` , `Anuj` , `Princi` , `Abhi` ],

` Age`  : [ 27 , 24 , 22 , 32 ,

33 , < classe de code = "value"> 36 , 27 , 32 ],

`Address`  : [ ` Nagpur` , `Kanpur ` , `Allahabad` , `Kannuaj` ‚Äã‚Äã ,

` Jaunpur` , `Kanpur` , `Allahabad` , `Aligarh` ],

`Qualification`  : [ `Msc` , ` MA` , `MCA` , ` Phd` ,

`B.Tech` , ` B.com` , `Msc` , ` MA` ]}


< br> # Convertir le dictionnaire en DataFrame

df = pd.DataFrame (data1)

print (df)

Sortie :

Regroupement de données avec plusieurs clés :
Pour regrouper des données avec plusieurs clés, nous transmettons plusieurs clés dans groupby fonction.


# importation du module pandas

import pandas as pd


# Définir un dictionnaire contenant les données des employés

data1 = { `Nom`  : [ `Jai` , ` Anuj` , `Jai` , ` Princi` ,

`Gaurav` , ` Anuj` , `Princi` , ` Abhi` ],

`Âge`  : [ 27 , 24 , 22 , 32 ,

33 , 36 , 27 , 32 ],

`Adresse`  : [ ` Nagpur` , `Kanpur` , ` Allahabad` , `Kannuaj` ‚Äã‚Äã ,

`Jaunpur` , `Kanpur` , ` Allahabad ` , `Aligarh` ],

`Qualification`  : [ `Msc` , ` MA` , ` MCA` , ` Phd` ,

`B.Tech` , `B.com` , ` Msc` , `MA` ]}



# Convertir le dictionnaire en DataFrame

df = pd. DataFrame (data1)


print (df)


Nous allons maintenant regrouper les données de nom et de qualification en utilisant plusieurs clés dans la fonction groupby fonctionnent.


# Utilisation de plusieurs clés dans
# groupby () fonction

df.groupby ([ ` Nom` , `Qualification` ])


imprimer (df.groupby ([ `Nom` , ` Qualification` ]). groupes)

Sortie :

Regroupement des données par tri par clé :
Les clés de groupe sont triées par défaut lors de l`opération groupée. L`utilisateur peut passer sort = False pour d`éventuelles accélérations.


# importation du module pandas

importer pandas en tant que pd


# Définir un dictionnaire contenant les données des employés

data1 = { `Nom`  : [ `Jai` , ` Anuj` , `Jai` , ` Princi` ,

`Gaurav` , `Anuj` , ` Princi` , `Abhi` ],

`Âge`  : [ 27 , 24 , 22 , 32 ,

33 , 36 , 27 , 32 ],}



# Convertir le dictionnaire en DataFrame

df = pd.DataFrame (data1)


print (df)


Nous appliquons maintenant groupby () pas de tri



# en utilisant la fonction groupby
# sans utiliser le tri


df.groupby ([ `Nom` ]). sum ()

Sortie :

Maintenant, nous utilisons groupby () en utilisant le tri pour atteindre une accélération potentielle.


# en utilisant groupby fonction
# trié


df .groupby ([ `Nom` ], sort = Faux ). sum ( )

Sortie :

Regroupement de données avec des attributs d`objet :
L`attribut groups est similaire à un dictionnaire, dont les clés sont des groupes uniques calculés, et les valeurs correspondantes ‚Äã‚Äãsont les étiquettes des axes, appartiennent à chaque groupe.


# pandas module import

import pandas as pd


# Définir un dictionnaire contenant les données des employés

data1 = { `Nom`  : [ ` Jai` , `Anuj` , ` Jai ` , ` Princi` ,

`Gaurav` , ` Anuj` , `Princi` , `Abhi` ],

`Âge`  : [ 27 , 24 , 22 , 32 ,

33 , 36 , 27 , 32 ],

`Address`  : [ ` Nagpur` , ` Kanpur` , `Allahabad` , ` Kannuaj` ‚Äã‚Äã ,

`Jaunpur` , `Kanpur` , ` Allahabad` , `Aligarh` ],

` Qualification`  : [ `Msc` , `MA` , `MCA` , ` Phd` ,

`B .Tech` , `B.com` , ` Msc` , `MA` ]}



# Convertir le dictionnaire en DataFrame

df = pd.DataFrame (data1)


print (df)


Nous regroupons maintenant les données comme nous le faisons dans un dictionnaire à l`aide de clés.

< classe de code = "commentaires" > # en utilisant les clés de regroupement
# data


df.groupby ( ` Nom` ). groupes

Sortie :

Itérer sur les groupes

Pour itérer sur l`élément de groupes, nous pouvons itérer sur un objet similaire à iterto.ols .


# pandas module import

importer pandas en tant que pd


# Définir le dictionnaire contenant les données sur les employés

data1 = { `Nom`  : [ ` Jai` , ` Anuj` , `Jai` , `Principe` ,

`Gaurav` , ` Anuj ` , ` Princi` , `Abhi` ],

` Age`  : [ 27 , 24 , 22 , 32 ,

33 , 36 , 27 , 32 ],

` Adresse`  : [ ` Nagpur` , `Kanpur` , `Allahabad` , `Kannuaj` ‚Äã‚Äã ,

` Jaunpur ` , ` Kanpur` , `Allahabad` , `Aligarh` ],

`Qualification`  : [ `Msc` , `MA` , `MCA` , `Phd` ,

`B.Tech` , ` B.com` , `Msc` , ` MA ` ]}


# Convertir le dictionnaire en DataFrame

df = pd.DataFrame (data1)

print (df)


Nous répétons maintenant l`élément de groupe comme nous le faisons dans itertools.obj.


# répétition d`élément
Groupe #


grp = df.groupby ( `Nom` )

pour nom, groupe dans grp :

print (nom)

print (groupe)

print ()

Sortie :

Nous parcourons maintenant un élément de groupe contenant plusieurs clés


# element repeat
# du groupe contenant
# plusieurs clés


grp = df.groupby ([ `Nom` , ` Qualification` ])

pour nom, groupe dans grp :

print (name)

print (groupe)

print ( )

Sortie :
Comme indiqué dans la sortie, le nom du groupe sera un tuple

Sélection de groupe

Pour sélectionner un groupe, nous pouvons sélectionner un groupe en utilisant GroupBy.get_group () . Nous pouvons sélectionner un groupe en appliquant la fonction GroupBy.get_group cette fonction sélectionnera un groupe.


# pandas module import

import pandas as pd


# Définir un dictionnaire contenant les données des employés

data1 = { `Nom`  : [ `Jai` , ` Anuj` , `Jai` , ` Princi` ,

`Gaurav` , `Anuj` , ` Princi` , `Abhi` ],

imprimer (nom)

print (groupe)

print ()

Sortie :
Comme indiqué dans la sortie, le nom du groupe sera un tuple

Sélection de groupe

Pour sélectionner un groupe, nous pouvons sélectionner un groupe en utilisant GroupBy.get_group () . Nous pouvons sélectionner un groupe en appliquant la fonction GroupBy.get_group cette fonction sélectionnera un groupe .


# importation du module pandas

importation pandas comme pd