Ik gebruik de panda's-bibliotheek om sommige CSV-gegevens in te lezen. In mijn gegevens bevatten bepaalde kolommen tekenreeksen. De tekenreeks "nan"
is een mogelijke waarde, net als een lege tekenreeks. slaagde erin om panda's "nan" als een string te laten lezen, maar ik kan er niet achter komen hoe ik ervoor kan zorgen dat ze geen lege waarde als NaN lezen. Hier zijn voorbeeldgegevens en uitvoer
One,Two,Three a,1,one b,2,two ,3,three d,4,nan e,5,five nan,6, g,7,seven >>> pandas.read_csv("test.csv", na_values={"One": [], "Three": []}) Eén Twee Drie 0 a 1 één 1 b 2 twee 2 NaN 3 drie 3 d 4 nan 4 e 5 vijf 5 nan 6 NaN 6 g 7 zeven
Het leest "nan" correct als de tekenreeks "nan", maar leest nog steeds de lege cellen als NaN. Ik heb geprobeerd str
in het argument converters
door te geven aan read_csv (met converters={"One": str})
), maar het leest nog steeds de lege cellen als NaN.
Ik realiseer me dat ik de waarden na het lezen kan vullen met fillna, maar is er echt geen manier om panda's te vertellen dat een lege cel in een bepaalde CSV-kolom moet worden gelezen als een lege string in plaats van NaN?