Ich fange gerade an, NLTK zu verwenden, und ich verstehe nicht ganz, wie ich eine Liste von Wörtern aus einem Text bekomme. Wenn ich nltk.word_tokenize()
verwende, erhalte ich eine Liste mit Wörtern und Satzzeichen. Ich brauche stattdessen nur die Worte. Wie kann ich Satzzeichen loswerden? Auch word_tokenize
funktioniert nicht mit mehreren Sätzen: Dem letzten Wort werden Punkte hinzugefügt.