Lecture d’un énorme fichier .csv

| | |

J'essaie actuellement de lire des données à partir de fichiers .csv en Python 2.7 avec jusqu'à 1 million de lignes et 200 colonnes (les fichiers vont de 100 Mo à 1,6 Go). Je peux le faire (très lentement) pour les fichiers avec moins de 300 000 lignes, mais une fois au-dessus, j'obtiens des erreurs de mémoire. Mon code ressemble à ceci :

def getdata(filename, critères) : data=[] pour le critère dans les critères : données. append(getstuff(nomfichier, critère)) return data def getstuff(nomfichier, critère): import csv data=[] with open(filename, "rb") as csvfile: datareader=csv.reader(csvfile) for row in datareader : if row[3]=="column header": data.append(row) elif len(data)<2 and row[3]!=criterion : pass elif row[3]==criterion : data.append(row ) else : return data 

La raison de la clause else dans la fonction getstuff est que tous les éléments qui correspondent au critère seront répertoriés ensemble dans le fichier csv, donc je quitte la boucle lorsque Je les dépasse pour gagner du temps.

Mes questions sont :

  1. Comment puis-je réussir à obtenir cela pour travailler avec des fichiers plus volumineux ?

  2. Existe-t-il un moyen d'accélérer le processus ?

Mon ordinateur a 8 Go de RAM, exécutant Windows 7 64 bits et le processeur est de 3,40 GHz (vous ne savez pas quelles informations vous avez besoin).

Shop

Learn programming in R: courses

$

Best Python online courses for 2022

$

Best laptop for Fortnite

$

Best laptop for Excel

$

Best laptop for Solidworks

$

Best laptop for Roblox

$

Best computer for crypto mining

$

Best laptop for Sims 4

$

Latest questions

NUMPYNUMPY

psycopg2: insert multiple rows with one query

12 answers

NUMPYNUMPY

How to convert Nonetype to int or string?

12 answers

NUMPYNUMPY

How to specify multiple return types using type-hints

12 answers

NUMPYNUMPY

Javascript Error: IPython is not defined in JupyterLab

12 answers

News


Wiki

Python OpenCV | cv2.putText () method

numpy.arctan2 () in Python

Python | os.path.realpath () method

Python OpenCV | cv2.circle () method

Python OpenCV cv2.cvtColor () method

Python - Move item to the end of the list

time.perf_counter () function in Python

Check if one list is a subset of another in Python

Python os.path.join () method