Een enorm .csv-bestand lezen

| | |

Ik probeer momenteel gegevens te lezen uit .csv-bestanden in Python 2.7 met maximaal 1 miljoen rijen en 200 kolommen (bestanden variëren van 100 MB tot 1,6 GB). Ik kan dit (zeer langzaam) doen voor de bestanden met minder dan 300.000 rijen, maar zodra ik daarboven ga, krijg ik geheugenfouten. Mijn code ziet er als volgt uit:

def getdata(filename, criteria): data=[] voor criterium in criteria: data. append(getstuff(bestandsnaam, criterium)) retourneer data def gettuff(bestandsnaam, criterium): import csv data=[] met open(bestandsnaam, "rb") als csvfile: datareader=csv.reader(csvfile) voor rij in datareader: if row[3]=="kolomkop": data.append(row) elif len(data)<2 and row[3]!=criterium: pass elif row[3]==criterium: data.append(rij ) else: return data 

De reden voor de else-clausule in de gettuff-functie is dat alle elementen die aan het criterium voldoen, samen in het csv-bestand worden vermeld, dus ik verlaat de lus wanneer Ik passeer ze om tijd te besparen.

Mijn vragen zijn:

  1. Hoe kan ik erin slagen om dit om met grotere bestanden te werken?

  2. Kan ik het op een of andere manier sneller maken?

Mijn computer heeft 8 GB RAM, met 64-bits Windows 7 en de processor is 3,40 GHz (niet zeker welke informatie je nodig hebt).

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method