Indizieren und Auswählen von Daten mit Pandas

| | | | | | | | |

Sehen wir uns ein Beispiel für die Indizierung in Pandas an. In diesem Artikel verwenden wir die Datei „nba.csv ‚" zum Hochladen von CSV, klicken Sie auf hier .

Mehrere Zeilen und mehrere Spalten auswählen

Nehmen wir einen DataFrame mit einigen gefälschten Daten, jetzt indizieren wir diesen DataFrame. Darin wählen wir mehrere Zeilen und mehrere Spalten aus dem DataFrame aus. Datenrahmen mit Datensatz.

Angenommen, wir möchten nur die Spalten Alter , Hochschule und Gehalt auswählen für Zeilen mit der Bezeichnung Amir Johnson und Terry Rozier

Unser letzter DataFrame m Ich sehe so aus:

Mehrere Zeilen und alle Spalten auswählen

Nehmen wir an, wir möchten die Zeile Amir Jhonson , Terry Rozier < auswählen /code> und John Holland mit allen Spalten im Datenrahmen .

Unser letzter DataFrame wird wie folgt aussehen:

Einige Spalten und alle Zeilen auswählen

Nehmen wir an, wir wollen Wählen Sie die Spalten Alter, Größe und Gehalt aus mit allen Zeilen im Datenrahmen.

Unser letzter DataFrame sieht so aus:

< /figure>

Indizierung von Pandas mit [] , .loc [] , . iloc [] , Dataframe .loc [] : Diese Funktion wird für Labels verwendet.
  • Dataframe.iloc [] : this Funktion wird für Positionen oder Ganzzahlen verwendet
  • Dataframe.ix [] : Diese Funktion wird sowohl für Labels als auch für Ganzzahlen verwendet.
  • Zusammen werden sie als Indexierer bezeichnet. Dies sind bei weitem die gebräuchlichsten Methoden, um Daten zu indizieren. Dies sind vier Funktionen, die Ihnen dabei helfen, Elemente, Zeilen und Spalten aus einem DataFrame abzurufen.

    Indizieren eines Dataframe mit dem Indizierungsoperator [] : < br>Operatorindizierung wird verwendet, um auf eckige Klammern nach einem Objekt zu verweisen. In , index_col = "Name" )


    # Extrahieren von Spalten mit dem Indexoperator

    first = data [ "Alter" ]



    print (first)

    Beenden:

    Mehrere Spalten auswählen

    Um mehrere Spalten auszuwählen, müssen wir eine Liste von Spalten in der Indizierungsanweisung übergeben .


    # Pandas-Paket importieren

    import pa n das als pd


    # Datenrahmen aus CSV-Datei erstellen

    data = pd.read_csv ( "nba.csv" , index_col = " Name " )


    # Mehrere Spalten mit dem Indexoperator abrufen

    first = data [[ "Alter" , "College" , "Gehalt" ]]




    zuerst

    Beenden:

    Indizieren des DataFrame mit , index_col = "Name" )


    # String-Lesen mit loc-Methode extrahieren

    first = data .loc [ "Avery Bradley" ]

    second = data.loc [ "RJ Hunter" ]



    print (erster, "" , zweiter)

    Ausgabe:
    Wie im Ausgabebild gezeigt, wurden zwei Serien zurückgegeben, da es beide Male nur einen Parameter gab.


    Auswählen mehrere Zeilen

    Um mehrere Zeilen auszuwählen, fügen wir alle Zeilenbezeichnungen in eine Liste ein und übergeben sie an die Funktion . loc .


    import Pandas als pd


    # Datenrahmen aus CSV-Datei erstellen

    data = pd.read_csv ( "nba.csv" , index_col = "Name" )


    # Mehrere Zeilen mit der loc-Methode abrufen

    first = data.loc [[ "Avery Bradley" , " RJ Hunter " ]]

    print (first)

    < /tr>

    Ausgabe:

    Auswählen von zwei Zeilen und drei Spalten

    Um zwei Zeilen und drei Spalten auszuwählen, wählen wir die beiden Zeilen aus wir wollen drei Spalten auswählen und in eine separate Liste wie diese einfügen:


     Dataframe.loc [["row1", "row2"], ["column1", "column2", "column3"] ] 

    import Pandas als pd


    # Datenrahmen aus CSV-Datei erstellen

    data = pd.read_csv ( "nba.csv" , index_col = "Name" )


    # Extrahieren zwei Zeilen und drei Spalten mit der loc-Methode

    first = data.loc [[ "Avery Bradley" , "RJ Hunter" ] ,

    [ "Team" , "Nummer" , "Position" ]]



    print (first)

    Ausgabe:


    Alle Zeilen und einige Spalten auswählen

    Um alle Zeilen und einige auszuwählen Spalten verwenden wir einen einzelnen Doppelpunkt [:], , um alle Zeilen und eine Liste einiger der Spalten auszuwählen, die wir wie folgt auswählen möchten:

     Dataframe.loc [[: , ["Spalte1", "Spalte2", "Spalte3"]] 

    < tbody>

    import Pandas als pd


    # Datenrahmen aus CSV-Datei erstellen

    data = pd.read_csv ( "nba.csv" , index_col = "Name" )


    # Alle Zeilen und einige Spalten mit der loc-Methode abrufen

    first = data.loc [:, [ "Team" , "Nummer" , "Position" ]]



    print ( zuerst)

    Exit:

    Indizierung von DataFrame mit . iloc [] :
    Diese Funktion ermöglicht es uns, Zeilen und Spalten nach Position zu erhalten. Dazu müssen wir die Positionen der benötigten Zeilen sowie die Positionen der benötigten Spalten angeben. df.iloc ist sehr ähnlich zu df.loc , verwendet aber nur ganzzahlige Positionen zur Auswahl.

    Einzelne Zeile selection

    Um eine Zeile mit .iloc [] auszuwählen, können wir eine Ganzzahl an .iloc [] übergeben.

    Pandas als pd importieren


    # Datenrahmen aus CSV-Datei erstellen

    data = pd.read_csv ( "nba.csv" , index_col = "Name" )



    # iloc-Extraktion von Zeilen

    row2 = data.iloc [ 3 ]




    print (row2)

    Beenden:


    , index_col = "Name" )



    # Abrufen mehrerer Zeilen mit der iloc-Methode

    row2 = data.iloc [[ 3 , 5 , 7 ]]




    row2

    Beenden:


    Auswählen von zwei Zeilen und zwei Spalten

    Um zwei Zeilen und zwei Spalten auszuwählen, Wir erstellen eine Liste mit 2 Ganzzahlen für Strings und eine Liste mit 2 Ganzzahlen für Spalten und übergeben dann die Funktion .iloc [] .


    import pandas as pd


    # Datenrahmen erstellen aus CSV-Datei

    data = pd.read_csv ( "nba.csv" , index_col = "Name" )



    # Extraktion aus zwei Zeilen und zwei Spalten mit der iloc-Methode

    row2 = data.iloc [[[ 3 , 4 ], [ 1 , 2 ]]

    print (row2)

    Beenden:

    Alle Zeilen und einige Spalten auswählen

    Zum Auswählen aller Zeilen und In einigen Spalten verwenden wir einen einzelnen Doppelpunkt [:], , um alle Zeilen auszuwählen, und fo r Spalten erstellen wir eine Liste von ganzen Zahlen und übergeben dann die Funktion .iloc [] .



    Pandas als pd importieren


    # Datenrahmen aus CSV-Datei erstellen

    data = pd.read_csv ( "nba.csv" , index_col = "Name" )



    # Extraktion aller Zeilen und einiger Spalten mit der iloc-Methode

    row2 = data.iloc [:, [ 1 , 2 ]]

    print (row2)

    Exit:

    Indizierung mit .ix [] als .loc []

    Um eine Zeile auszuwählen, fügen wir ein einzelnes Zeilenlabel in die function.ix ein Diese Funktion verhält sich wie .loc [] wenn wir die Zeilenbezeichnung als Argument an die Funktion übergeben.


    # Pandas-Paket importieren

    import Pandas als pd


    # Datenrahmen aus CSV-Datei erstellen

    data = pd.read_csv ( " nba.csv " , index_col = "Name" )


    # Abrufen einer Zeichenfolge mit der ix-Methode

    first = data.ix [ "Avery Bradley" ]




    print (erster)

    Exit:

    Auswählen einer Zeile mit .ix [] als , index_col = "Name" )


    # Abrufen einer Zeichenfolge mit der ix-Methode

    first = data.ix [ 1 ]


    print (first)

    Beenden:

    < figure class = aligncenter amp-wp-inline-71b6f2deb98f54bf23d07f2b79530929>


    Indizierungsmethoden in DataFrame

    < /tr>
    Funktion Beschreibung
    Dataframe.head () Gibt die obersten n Zeilen eines Datenrahmens zurück.
    Dataframe.tail () Gibt die unteren n Zeilen eines Datenrahmens zurück.
    Dataframe.at [] Greifen Sie auf einen einzelnen Wert für ein Zeilen- / Spaltenbeschriftungspaar zu.
    Dataframe.iat [] Greifen Sie auf einen einzelnen Wert für ein Zeilen-/Spaltenpaar nach ganzzahliger Position zu .
    Dataframe.tail () Rein auf Integer-Location basierende Indizierung zur Auswahl nach Position.
    DataFrame.lookup () Labelbasierte "ausgefallene Indizierungsfunktion für DataFrame.
    DataFrame .pop () Element zurückgeben und aus Frame löschen.
    DataFrame.xs() Gibt einen Querschnitt (Zeile(n) oder Spalte(n)) aus dem DataFrame zurück.
    DataFrame.get () Element aus Objekt für gegebenen Schlüssel abrufen (DataFrame-Spalte, Panel-Slice usw.).
    DataFrame.isin () Gibt den booleschen DataFrame zurück, der anzeigt, ob jedes Element hinein der DataFrame ist in Werten enthalten.
    DataFrame.where () Gibt ein Objekt zurück, das die gleiche Form wie self hat und dessen entsprechende Einträge von self stammen, wobei cond True ist und ansonsten von other.< /td>

    Shop

    Learn programming in R: courses

    $

    Best Python online courses for 2022

    $

    Best laptop for Fortnite

    $

    Best laptop for Excel

    $

    Best laptop for Solidworks

    $

    Best laptop for Roblox

    $

    Best computer for crypto mining

    $

    Best laptop for Sims 4

    $

    Latest questions

    NUMPYNUMPY

    psycopg2: insert multiple rows with one query

    12 answers

    NUMPYNUMPY

    How to convert Nonetype to int or string?

    12 answers

    NUMPYNUMPY

    How to specify multiple return types using type-hints

    12 answers

    NUMPYNUMPY

    Javascript Error: IPython is not defined in JupyterLab

    12 answers


    Wiki

    Python OpenCV | cv2.putText () method

    numpy.arctan2 () in Python

    Python | os.path.realpath () method

    Python OpenCV | cv2.circle () method

    Python OpenCV cv2.cvtColor () method

    Python - Move item to the end of the list

    time.perf_counter () function in Python

    Check if one list is a subset of another in Python

    Python os.path.join () method