Ik begin net NLTK te gebruiken en ik begrijp niet helemaal hoe ik een lijst met woorden uit tekst kan halen. Als ik nltk.word_tokenize()
gebruik, krijg ik een lijst met woorden en interpunctie. Ik heb alleen de woorden nodig. Hoe kan ik leestekens verwijderen? Ook werkt word_tokenize
niet met meerdere zinnen: puntjes worden aan het laatste woord toegevoegd.