मेरे द्वारा आयात किए जा रहे ट्वीट्स के एक समूह में यह समस्या है जहां वे पढ़ते हैं
b"मैंने Facebook पर एक नई फ़ोटो पोस्ट की है"
मैं b
को इकट्ठा करना इंगित करता है कि यह एक बाइट है। लेकिन यह समस्याग्रस्त साबित हो रहा है क्योंकि मेरी सीएसवी फाइलों में जो मैं लिख रहा हूं, b
दूर नहीं जाता है और भविष्य के कोड में हस्तक्षेप कर रहा है।
क्या कोई आसान तरीका है मेरे टेक्स्ट की पंक्तियों से इस b
उपसर्ग को हटा दें?
ध्यान रखें, मुझे लगता है कि टेक्स्ट को utf-8 में एन्कोड किया जाना चाहिए या tweepy को उन्हें वेब से खींचने में परेशानी हो रही है
यहां लिंक सामग्री है जिसका मैं विश्लेषण कर रहा हूं:
https://www.dropbox.com/s/sjmsbuhrghj7abt/new_tweets.txt?dl=0
new_tweets = " लिंक में सामग्री"
कोड प्रयास
आउटट्वीट = [[tweet.text.encode("utf-8").decode("utf- 8")] new_tweets में ट्वीट के लिए] प्रिंट (आउटट्वीट)
त्रुटि
UnicodeEncodeError Traceback (सबसे हालिया कॉल अंतिम) <ipython-input-21 -6019064596bf> में <मॉड्यूल>() 1 उपयोगकर्ता_सूची में स्क्रीन_नाम के लिए: ----> 2 get_all_tweets(screen_name,"instnc e फ़ाइल") <ipython-input-19-e473b4771186> get_all_tweets(screen_name, mode) 99 में open(os.path.join(save_location,"%s.instance" % Screen_name), "w") के साथ f: 100 राइटर = csv.writer(f) --> 101 लेखक.लेखक(आउटट्वीट) 102 अन्य: 103 खुले के साथ(os.path.join(save_location,"%s.csv"% Screen_name), "w") जैसे f: C:UsersStan ShunpikeAnaconda3libencodingscp1252.py encode(self, इनपुट, अंतिम) 17 वर्ग वृद्धिशीलएनकोडर(codecs.IncrementalEncoder): 18 डीईएफ़ एन्कोड (स्वयं, इनपुट, अंतिम=गलत): ---> 19 वापसी codecs.charmap_encode(input,self.errors,encoding_table)[0] 20 21 वर्ग IncrementalDecoder(codecs.IncrementalDecoder): UnicodeEncodeError: "charmap" कोडेक 64-65 की स्थिति में वर्णों को एन्कोड नहीं कर सकता: वर्ण मानचित्र <अपरिभाषित> ;