इस लेख में, हम चर्चा करने जा रहे हैं कि कैसे हम ऑनलाइन टेक्स्ट फाइलों से टेक्स्ट प्राप्त कर सकते हैं और उनसे आवश्यक डेटा निकाल सकते हैं। इस लेख के लिए, हम यहां उपलब्ध टेक्स्ट फ़ाइल का उपयोग करेंगे < /a>.
निम्नलिखित को आपके वर्तमान उत्पादन परिवेश में स्थापित किया जाना चाहिए:
- NLTC लाइब्रेरी
- urllib
- BeautifulSoup लाइब्रेरी
चरण # 1: आवश्यक लाइब्रेरी आयात करें
<तालिका बॉर्डर = "0" सेलपैडिंग = "0" सेलस्पेसिंग =" 0 ">
import
nltk
<कोड वर्ग = "कीवर्ड"> कोड> से <कोड वर्ग = "सादा"> bs4 कोड> <कोड वर्ग = "कीवर्ड"> आयात कोड> <कोड वर्ग = " प्लेन"> ब्यूटीफुल सूप कोड>
<कोड क्लास = "कीवर्ड"> कोड> से <कोड क्लास = "प्लेन"> urllib.request कोड> <कोड क्लास = "कीवर्ड" > आयात urlopen
उपरोक्त पुस्तकालयों के बारे में कुछ बुनियादी जानकारी:
- एनएलटीके पुस्तकालय। पुस्तकालय nltk अंग्रेजी भाषा प्रसंस्करण के लिए लिखे गए पुस्तकालयों और कार्यक्रमों का एक संग्रह है और पायथन प्रोग्रामिंग भाषा में लिखा गया है।
- urllib पुस्तकालय: अजगर के लिए एक URL संसाधन पुस्तकालय है ... इस बारे में अधिक जानकारी प्राप्त करें कच्चा कोड> <कोड वर्ग = "कीवर्ड"> = कोड > <कोड वर्ग = "सादा"> urlopen ( <कोड वर्ग = "स्ट्रिंग"> " https://www.w3.org/TR/PNG/iso_8859-1. txt "
)। पढ़ें ()
इसलिए अपरिष्कृत डेटा को अपरिष्कृत चर में लोड किया जाता है।
चरण # 3: फिर हम सभी html / टैग xml को हटाने के लिए डेटा को संसाधित करते हैं जो हमारे कच्चे चर में मौजूद हो सकते हैं:
< कोड वर्ग = "सादा"> कच्चा 1 कोड> <कोड वर्ग = "कीवर्ड" "> = कोड> <कोड वर्ग = "सादा"> सुंदर सूप (कच्चा) कोड>
कोड>
चरण # 4: अब हमें टेक्स्ट "रॉ" वेरिएबल में मिलता है।
<कोड वर्ग = "सादा"> कच्चा 2 कोड> <कोड वर्ग = "कीवर्ड"> = कोड> <कोड वर्ग = "सादा"> raw1.get_text () कोड>
उत्पादन:
चरण # 5: इसके बाद हम टेक्स्ट को शब्दों में तोड़ते हैं।
टोकन
=
nltk.word_tokenize (raw2)
आउटपुट:
यह अगले चरण के लिए प्रीप्रोसेसिंग के रूप में किया जाता है, जहां हमें अंतिम टेक्स्ट मिलता है।
चरण # 6: अंत में, हमें अपना अंतिम टेक्स्ट मिलता है ।
<कोड वर्ग = "सादा"> पाठ 2 कोड> <कोड वर्ग = "कीवर्ड"> = कोड> <कोड वर्ग = "स्ट्रिंग"> ` ` <कोड वर्ग = "सादा">। शामिल हों (टोकन)
आउटपुट: < br>
नीचे पूरा कोड है:
<टेबल बॉर्डर = "0" सेलपैडिंग = "0" सेलस्पेसिंग = "0">
<कोड वर्ग = "टिप्पणियां"> # लाइब्रेरी आयात करना
import
nltk
कोड> से
<कोड वर्ग = "कीवर्ड"> से <कोड वर्ग = "सादा"> urllib.request कोड> <कोड वर्ग = "कीवर्ड"> आयात कोड> <कोड class="plain"> urlopen
# पाठ की संपूर्ण सामग्री को निकालें फ़ाइल।
<कोड वर्ग = "सादा"> कच्चा कोड> <कोड वर्ग = "कीवर्ड"> = कोड> <कोड वर्ग = "सादा"> urlopen ( कोड > <कोड क्लास = "स्ट्रिंग"> " https: //www.w3.org/TR/PNG/iso_8859-1.txt " )। पढ़ें ()
# सभी html / xml टैग हटा दें
कच्चा1 कोड> <कोड वर्ग = "कीवर्ड"> = कोड> <कोड वर्ग = "सादा"> सुंदर सूप (कच्चा) कोड>
<कोड वर्ग = "अपरिभाषित रिक्त स्थान" >
raw2
=
raw1.get_text ()
# टेक्स्ट को शब्दों में तोड़ें।
<कोड वर्ग = "सादा"> टोकन कोड> <कोड वर्ग = "कीवर्ड"> = कोड> <कोड वर्ग = "सादा"> nltk.word_tokenize (raw2 )
text2
=
`` कोड> कोड> <कोड वर्ग = "सादा">। शामिल हों (टोकन)