Indexation et sélection de données avec pandas

| | | | | | | | |

Regardons un exemple d`indexation dans Pandas. Dans cet article, nous utilisons le fichier "nba.csv " pour télécharger le CSV, cliquez sur ici .

Sélection de plusieurs lignes et plusieurs colonnes

Prenons un DataFrame avec de fausses données, maintenant nous indexons ceci DataFrame. Dans ce cas, nous sélectionnons plusieurs lignes et plusieurs colonnes dans le DataFrame. Cadre de données avec ensemble de données.

Supposons que nous voulions sélectionner les colonnes Age , College et Salary uniquement pour les lignes étiquetées Amir Johnson et Terry Rozier

Notre dernier DataFrame w Je vais ressembler à ceci :

Sélectionner plusieurs lignes et toutes les colonnes

Supposons que nous voulons sélectionner la ligne Amir Jhonson , Terry Rozier et John Holland avec toutes les colonnes du dataframe .

Notre dernier DataFrame ressemblera à ceci :

Sélection de certaines colonnes et de toutes les lignes

Disons que nous voulons sélectionnez les colonnes Âge, Taille et Salaire avec toutes les lignes du dataframe.

Notre dernier DataFrame ressemblera à ceci :

< /figure>

Indexation des pandas à l`aide de [] , .loc [] , . iloc [] , Dataframe .loc []  : cette fonction est utilisée pour les étiquettes.
  • Dataframe.iloc []  : ceci la fonction est utilisée pour les positions ou les entiers
  • Dataframe.ix []  : cette fonction est utilisée à la fois pour les étiquettes et les entiers.
  • Collectivement, ils sont appelés indexeurs. Ce sont de loin les moyens les plus courants d`indexer les données. Voici quatre fonctions qui vous aident à obtenir des éléments, des lignes et des colonnes à partir d`un DataFrame.

    Indexation d`un Dataframe à l`aide de l`opérateur d`indexation []  : < br> L`indexation des opérateurs est utilisée pour faire référence aux crochets suivant un objet. Dans , index_col = "Name" )


    # extraction des colonnes à l`aide de l`opérateur d`index

    premier = données [ "Âge" ]



    imprimer (premier)

    Quitter :

    Sélection de plusieurs colonnes

    Pour sélectionner plusieurs colonnes, il faut passer une liste de colonnes dans la déclaration d`indexation .


    # importer le paquet pandas

    importer pa n das as pd


    # créer une trame de données à partir du fichier CSV

    données = pd.read_csv ( "nba.csv" , index_col = " Nom " )


    # récupérer plusieurs colonnes à l`aide de l`opérateur d`index

    premier = données [[ "Âge" , "Collège" , "Salaire" ]]




    premier

    Quitter :

    Indexation du DataFrame à l`aide de , index_col = "Nom" )


    # lecture de la chaîne d`extraction à l`aide de la méthode loc

    premier = data .loc [ "Avery Bradley" ]

    deuxième = data.loc [ "RJ Hunter" ]



    print (premier, "" , deuxième)

    Sortie :
    Comme indiqué dans l`image de sortie, deux séries ont été renvoyées car il n`y avait qu`un seul paramètre les deux fois.


    Sélection plusieurs lignes

    Pour sélectionner plusieurs lignes, nous mettons toutes les étiquettes de ligne dans une liste et les passons à la fonction . loc .


    importer pandas en tant que pd


    # créer une trame de données à partir du fichier CSV

    données = pd.read_csv ( "nba.csv" , index_col = "Name" )


    # obtenir plusieurs lignes en utilisant la méthode loc

    premier = data.loc [[ "Avery Bradley" , " RJ Hunter " ]]

    print (premier)

    < /tr>

    Sortie :

    Sélection de deux lignes et trois colonnes

    Pour sélectionner deux lignes et trois colonnes, nous sélectionnons les deux lignes nous voulons sélectionner trois colonnes et les placer dans une liste séparée comme celle-ci :


     Dataframe.loc [["row1", "row2"], ["column1", "column2", "column3"] ] 

    importer pandas en tant que pd


    # créer une trame de données à partir du fichier CSV

    données = pd.read_csv ( "nba.csv" , index_col = "Name" )


    # extraction deux lignes et trois colonnes en utilisant la méthode loc

    first = data.loc [[ "Avery Bradley" , "RJ Hunter" ] ,

    [ "Équipe" , "Nombre" , "Position" ]]



    imprimer (premier)

    Sortie :


    Sélection de toutes les lignes et de certaines colonnes

    Pour sélectionner toutes les lignes et certaines colonnes, nous utilisons un seul deux-points [:], pour sélectionner toutes les lignes et une liste de certaines des colonnes que nous voulons sélectionner comme suit :

     Dataframe.loc [[ : , ["column1", "column2", "column3"]] 

    < tbody>

    importer pandas en tant que pd


    # créer une trame de données à partir du fichier CSV

    data = pd.read_csv ( "nba.csv" , index_col = "Name" )


    # récupérer toutes les lignes et certaines colonnes en utilisant la méthode loc

    first = data.loc [:, [ "Équipe" , "Numéro" , "Position" ]]



    print ( premier)

    Quitter :

    Indexation de DataFrame à l`aide . iloc []  :
    Cette fonction nous permet d`obtenir des lignes et des colonnes par position. Pour ce faire, nous devons spécifier les positions des lignes dont nous avons besoin, ainsi que les positions des colonnes dont nous avons besoin. df.iloc est très similaire à df.loc mais n`utilise que des emplacements entiers pour la sélection.

    Une seule ligne selection

    Pour sélectionner une ligne en utilisant .iloc [] , nous pouvons passer un entier à .iloc [] .

    importer pandas en tant que pd


    # créer une trame de données à partir du fichier CSV

    données = pd.read_csv ( "nba.csv" , index_col = "Nom" )



    # extraction iloc des lignes

    row2 = data.iloc [ 3 ]




    imprimer (row2)

    Quitter :


    , index_col = "Name" )



    # obtenir plusieurs lignes en utilisant la méthode iloc

    row2 = data.iloc [[ 3 , 5 , 7 ]]




    row2

    Quitter :


    Sélection de deux lignes et deux colonnes

    Pour sélectionner deux lignes et deux colonnes, on crée une liste de 2 entiers pour les chaînes et une liste de 2 entiers pour les colonnes, puis on passe la fonction .iloc [] .


    import pandas as pd


    # créer une trame de données à partir de Fichier CSV

    données = pd.read_csv ( "nba.csv" , index_col = "Name" )



    # extraction de deux lignes et deux colonnes en utilisant la méthode iloc

    row2 = data.iloc [[[ 3 , 4 ], [ 1 , 2 ]]

    print (row2)

    Quitter :

    Sélectionner toutes les lignes et certaines colonnes

    Pour sélectionner toutes les lignes et certaines colonnes, nous utilisons un seul deux-points [:], pour sélectionner toutes les lignes, et fo r colonnes, on compose une liste d`entiers puis on passe la fonction .iloc[] .



    importer pandas en tant que pd


    # créer une trame de données à partir du fichier CSV

    données = pd.read_csv ( "nba.csv" , index_col = "Nom" )



    # extraction de toutes les lignes et de certaines colonnes à l`aide de la méthode iloc

    row2 = data.iloc [:, [ 1 , 2 ]]

    print (row2)

    Quitter :

    Indexation à l`aide de .ix [] as . loc []

    Pour sélectionner une ligne, nous mettons une seule étiquette de ligne dans la fonction . ix . Cette fonction agit comme .loc [] si nous passons le libellé de la ligne comme argument à la fonction.


    # import pandas package

    import pandas as pd


    # créer une trame de données à partir d`un fichier CSV

    données = pd.read_csv ( " nba.csv " , index_col = "Nom" )


    # obtenir une chaîne en utilisant la méthode ix

    premier = data.ix [ "Avery Bradley" ]




    imprimer (premier)

    Quitter :

    Sélection d`une ligne à l`aide de .ix [] as , index_col = "Nom" )


    # obtenir une chaîne en utilisant la méthode ix

    premier = data.ix [ 1 ]


    print (premier)

    Quitter :

    < figure class = aligncenter amp-wp-inline-71b6f2deb98f54bf23d07f2b79530929>


    Méthodes d`indexation dans DataFrame

    < /tr>
    Fonction Description
    Dataframe.head () Renvoie les n premières lignes d`une trame de données.
    Dataframe.tail () Renvoie les n lignes inférieures d`une trame de données.
    Dataframe.at [] Accéder à une valeur unique pour une paire d`étiquettes de ligne/colonne.
    Dataframe.iat [] Accéder à une seule valeur pour un couple ligne/colonne par position entière .
    Dataframe.tail () Indexation purement basée sur l`emplacement entier pour la sélection par position.
    DataFrame.lookup () Fonction "d`indexation sophistiquée" basée sur des étiquettes pour DataFrame.
    DataFrame .pop () Renvoie l`élément et le supprime du cadre.
    DataFrame.xs() Renvoie une section (ligne(s) ou colonne(s)) du DataFrame.
    DataFrame.get () Récupère l`élément de l`objet pour une clé donnée (colonne DataFrame, tranche de panneau, etc.).
    DataFrame.isin () Renvoie un DataFrame booléen indiquant si chaque élément dans le DataFrame est contenu dans les valeurs.
    DataFrame.where () Renvoie un objet de même forme que self et dont les entrées correspondantes proviennent de self où cond vaut True et sinon de other.< /td>

    Shop

    Learn programming in R: courses

    $

    Best Python online courses for 2022

    $

    Best laptop for Fortnite

    $

    Best laptop for Excel

    $

    Best laptop for Solidworks

    $

    Best laptop for Roblox

    $

    Best computer for crypto mining

    $

    Best laptop for Sims 4

    $

    Latest questions

    NUMPYNUMPY

    psycopg2: insert multiple rows with one query

    12 answers

    NUMPYNUMPY

    How to convert Nonetype to int or string?

    12 answers

    NUMPYNUMPY

    How to specify multiple return types using type-hints

    12 answers

    NUMPYNUMPY

    Javascript Error: IPython is not defined in JupyterLab

    12 answers


    Wiki

    Python OpenCV | cv2.putText () method

    numpy.arctan2 () in Python

    Python | os.path.realpath () method

    Python OpenCV | cv2.circle () method

    Python OpenCV cv2.cvtColor () method

    Python - Move item to the end of the list

    time.perf_counter () function in Python

    Check if one list is a subset of another in Python

    Python os.path.join () method