मैं अभी एनएलटीके का उपयोग करना शुरू कर रहा हूं और मुझे समझ में नहीं आ रहा है कि टेक्स्ट से शब्दों की सूची कैसे प्राप्त करें। अगर मैं nltk.word_tokenize()
का उपयोग करता हूं, तो मुझे शब्दों और विराम चिह्नों की एक सूची मिलती है। मुझे इसके बजाय केवल शब्दों की आवश्यकता है। मैं विराम चिह्नों से कैसे छुटकारा पा सकता हूँ? साथ ही word_tokenize
कई वाक्यों के साथ काम नहीं करता: अंतिम शब्द में बिंदु जोड़े जाते हैं।