Sto appena iniziando a usare NLTK e non capisco come ottenere un elenco di parole dal testo. Se utilizzo nltk.word_tokenize()
, ottengo un elenco di parole e punteggiatura. Mi servono solo le parole invece. Come posso eliminare la punteggiatura? Inoltre word_tokenize
non funziona con più frasi: i punti vengono aggiunti all'ultima parola.