Einige der Tweets, die ich importiere, haben dieses Problem, wo sie lesen:
b"Ich habe ein neues Foto auf Facebook gepostet"
I Sammeln Sie das b
zeigt an, dass es sich um ein Byte handelt. Dies erweist sich jedoch als problematisch, da in meinen CSV-Dateien, die ich am Ende schreibe, das b
nicht verschwindet und zukünftigen Code stört.
Gibt es eine einfache Möglichkeit Dieses b
-Präfix aus meinen Textzeilen entfernen?
Denken Sie daran, dass ich den Text anscheinend in UTF-8 kodiert haben muss oder Tweepy Probleme hat, ihn aus dem Internet zu ziehen .
Hier ist der Inhalt des Links, den ich analysiere:
https://www.dropbox.com/s/sjmsbuhrghj7abt/new_tweets.txt?dl=0
new_tweets = " Inhalt im Link"
Code-Versuch
outtweets = [[tweet.text.encode("utf-8").decode("utf- 8")] for tweet in new_tweets] print(outtweets)
Fehler
UnicodeEncodeError Traceback (letzter Aufruf zuletzt) <ipython-input-21 -6019064596bf> in <module>() 1 für screen_name in user_list: ----> 2 get_all_tweets(screen_name,"instanc e-Datei") <ipython-input-19-e473b4771186> in get_all_tweets(screen_name, mode) 99 mit open(os.path.join(save_location,"%s.instance" % screen_name), "w") als f: 100writer = csv.writer(f) --> 101writer.writerows(outtweets) 102 else: 103 with open(os.path.join(save_location,"%s.csv" % screen_name), "w") as f: C:UsersStan ShunpikeAnaconda3libencodingscp1252.py in encode(self, input, final) 17 class IncrementalEncoder(codecs.IncrementalEncoder): 18 def encode(self, input, final=False): ---> 19 Rückgabecodecs.charmap_encode(input,self.errors,encoding_table)[0] 20 21 class IncrementalDecoder(codecs.IncrementalDecoder): UnicodeEncodeError: „charmap“-Codec kann Zeichen an Position 64-65 nicht codieren: Zeichenzuordnung zu <undefiniert> ;