Hoe kom je van interpunctie af met NLTK-tokenizer?

| | | | | | | | | |

Ik begin net NLTK te gebruiken en ik begrijp niet helemaal hoe ik een lijst met woorden uit tekst kan halen. Als ik nltk.word_tokenize() gebruik, krijg ik een lijst met woorden en interpunctie. Ik heb alleen de woorden nodig. Hoe kan ik leestekens verwijderen? Ook werkt word_tokenize niet met meerdere zinnen: puntjes worden aan het laatste woord toegevoegd.