Estou extraindo dados de um documento do Google, processando-os e gravando-os em um arquivo (que eventualmente vou colar em uma página do Wordpress).
Ele tem alguns símbolos não ASCII. Como posso convertê-los com segurança em símbolos que podem ser usados na fonte HTML?
Atualmente estou convertendo tudo para Unicode no caminho, juntando tudo em uma string Python e fazendo:
importar codecs f = codecs.open("out.txt", mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859 -1", "replace"))
Há um erro de codificação na última linha:
UnicodeDecodeError: codec "ascii" não pode decodificar byte 0xa0 na posição 12286: ordinal not in range(128)
Solução parcial:
Este Python é executado sem erro:
row = [unicode(x.strip()) se x não for Nenhum outro u"" para x na linha] all_html = linha[0] + "<br/>" + linha [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8"))
Mas então, se eu abrir o arquivo de texto real, vejo muitos símbolos como:
Qur’an
Talvez eu precise escrever para algo diferente de um arquivo de texto?