Estoy empezando a usar NLTK y no entiendo muy bien cómo obtener una lista de palabras de un texto. Si uso nltk.word_tokenize()
, obtengo una lista de palabras y puntuación. Sólo necesito las palabras en su lugar. ¿Cómo puedo deshacerme de la puntuación? Además, word_tokenize
no funciona con varias oraciones: se agregan puntos a la última palabra.