Un montón de los tweets que estoy importando tienen este problema donde se lee
b"Publiqué una nueva foto en Facebook"
I reunir el b
indica que es un byte. Pero esto está resultando problemático porque en mis archivos CSV que termino escribiendo, el b
no desaparece e interfiere en el código futuro.
¿Existe una forma sencilla de ¿Eliminar este prefijo b
de mis líneas de texto?
Ten en cuenta que parece que necesito tener el texto codificado en utf-8 o tweepy tiene problemas para extraerlo de la web
Este es el contenido del enlace que estoy analizando:
https://www.dropbox.com/s/sjmsbuhrghj7abt/new_tweets.txt?dl=0
new_tweets = " contenido en el enlace"
Intento de código
outtweets = [[tweet.text.encode("utf-8").decode("utf- 8")] for tweet in new_tweets] print(outtweets)
Error
UnicodeEncodeError Rastreo (última llamada más reciente) <ipython-input-21 -6019064596bf> en <módulo>() 1 para screen_name en user_list: ----> 2 get_all_tweets(screen_name,"instanc e file") <ipython-input-19-e473b4771186> en get_all_tweets(screen_name, mode) 99 con open(os.path.join(save_location,"%s.instance" % screen_name), "w") como f: 100 escritor = csv.escritor(f) --> 101 escritor.writerows(outtweets) 102 más: 103 con open(os.path.join(save_location,"%s.csv" % screen_name), "w") como f: C:UsersStan ShunpikeAnaconda3libencodingscp1252.py in encode(self, input, final) 17 class IncrementalEncoder(codecs.IncrementalEncoder): 18 def encode(self, input, final=False): ---> 19 return codecs.charmap_encode(input,self.errors,encoding_table)[0] 20 21 class IncrementalDecoder(codecs.IncrementalDecoder): UnicodeEncodeError: el códec "charmap" no puede codificar caracteres en la posición 64-65: mapas de caracteres a <indefinido> ;