एनएलटीके टोकननाइज़र का उपयोग करके विराम चिह्न से कैसे छुटकारा पाएं?

| | | | | | | | | |

मैं अभी एनएलटीके का उपयोग करना शुरू कर रहा हूं और मुझे समझ में नहीं आ रहा है कि टेक्स्ट से शब्दों की सूची कैसे प्राप्त करें। अगर मैं nltk.word_tokenize() का उपयोग करता हूं, तो मुझे शब्दों और विराम चिह्नों की एक सूची मिलती है। मुझे इसके बजाय केवल शब्दों की आवश्यकता है। मैं विराम चिह्नों से कैसे छुटकारा पा सकता हूँ? साथ ही word_tokenize कई वाक्यों के साथ काम नहीं करता: अंतिम शब्द में बिंदु जोड़े जाते हैं।