Grupo — concepto bastante simple. Podemos crear un grupo de categorías y aplicar la función a las categorías. Es un concepto simple, pero es una técnica extremadamente valiosa que se usa ampliamente en data ciencia. En los proyectos de ciencia de datos del mundo real, se enfrentará a grandes cantidades de datos y tratando de hacer las cosas repetidamente, por lo que para mayor eficiencia usamos el concepto Groupby. El concepto de Groupby es realmente importante porque es capaz de combinar datos de manera eficiente, tanto en términos de rendimiento como de cantidad de código. La agrupación se refiere principalmente a un proceso que implica uno o más de los siguientes pasos:
- Separación: es un proceso en el que dividimos los datos en grupos aplicando algunas condiciones a los conjuntos de datos. .
- Aplicación: es un proceso en el que aplicamos una función a cada grupo de forma independiente
- Consolidación: es un proceso en el que combinamos diferentes conjuntos de datos después de aplicar la agrupación y los resultados en una estructura de datos
La siguiente imagen lo ayudará a comprender el proceso involucrado en el concepto Groupby.
1. Agrupa los valores únicos ‚Äã‚Äãde la columna "Equipo".
2. Ahora hay un cubo para cada grupo
3. Arroje otros datos en cubos
4. Aplique la función a la columna de peso de cada cubo.
Dividir datos en grupos
Dividir — es un proceso en el que dividimos los datos en grupos aplicando algunas condiciones a los conjuntos de datos. Para separar los datos, aplicamos ciertas condiciones a los conjuntos de datos. Para separar datos, usamos groupby ()
esta función se usa para dividir datos en grupos según algunos criterios . Los objetos de Pandas se pueden subdividir en cualquiera de sus ejes. Una definición abstracta de agrupación es proporcionar una asignación de etiquetas a nombres de grupos. Los conjuntos de datos de Pandas se pueden dividir en cualquier objeto. Hay varias formas de dividir datos, por ejemplo:
Nota: aquí nos referimos a agrupar objetos como claves.
Agrupar datos con una clave:
Para agrupar datos con una clave, solo pasamos una clave como argumento al función groupby
.
< br>
|
< br>Ahora agrupamos los datos
Name
usando la función groupby ()
.
# usando la función groupby
`Name`
)
Salida:
Ahora imprimimos los primeros registros en todos los grupos formados .
# aplicar el Función groupby () para
# agrupar datos por valor de nombre
`Name`
)
# Imprime las primeras entradas
# en todos los grupos generados.
Salida:
Agrupación de datos con varias claves:
Para agrupar datos con varias claves, transmitimos varias claves en groupby Función
.
# importar módulo pandas
import
pandas as pd
# Definir un diccionario que contenga datos de empleados
,
`Princi`
,
< clase de código ="cadena ">` Abhi`
,
`Jaunpur`
< clase de código ="simple ">, ,
`Aligarh`
],
]}
# Convertir diccionario en DataFrame
(df)
Ahora agruparemos los datos de Nombre y Calificación usando múltiples claves en el trabajo de la función groupby
.
Salida: Agrupación de datos por clasificación de clave:
< código clase = "simple"> df |
Salida: Agrupación de datos con atributos de objeto:
< código clase = "funciones"> imprimir
|
Salida:
Iterando sobre los grupos
Para iterar sobre el elemento de grupos, podemos iterar sobre un objeto similar a iterto.ols .
# pandas module import
data1
=
{
`Nombre`
: [
` Jai`
` Anuj`
,
`Jai`
< clase de código = "cadena"> `Gaurav` ` Princi`
,
`Abhi`
],
` Age`
: [
: [
` Nagpur`
,
`Kannuaj` ​​
,
],
`Calificación`
df
=
pd.DataFrame (data1)
print < /código>
Ahora repetimos el elemento de grupo tal como lo hacemos en itertools.obj.
=
df.groupby (
`Nombre`
)
para
nombre, grupo
en
grp:
()
Salida:
Ahora iteramos sobre un elemento de grupo que contiene varias claves
# elemento repetir
# del grupo que contiene
# claves múltiples
grp < /código>
`Nombre`
,
` Calificación`
])
para
nombre, grupo
en
print
(nombre)
imprimir
Salida:
Como se muestra en la salida, el nombre del grupo será una tupla
Selección de grupo
Para seleccionar un grupo, podemos seleccionar un grupo usando GroupBy.get_group()
. Podemos seleccionar un grupo aplicando la función GroupBy.get_group
esta función seleccionará un grupo.
# pandas importar módulo
importar
pandas como pd
# Definir un diccionario que contenga datos de empleados
data1
= < /código>
Salida:
Como se muestra en la salida, el nombre del grupo será una tupla
Selección de grupo
Para seleccionar un grupo, podemos seleccionar un grupo usando GroupBy.get_group ()
. Podemos seleccionar un grupo aplicando la función GroupBy.get_group
esta función seleccionará u