Zapisujesz tekst Unicode do pliku tekstowego?

| | | | | | | | | | | | |

Wyciągam dane z dokumentu Google, przetwarzam je i zapisuję do pliku (który ostatecznie wkleję na stronę Wordpress).

Ma kilka symboli spoza ASCII. Jak mogę je bezpiecznie przekonwertować na symbole, które mogą być użyte w źródle HTML?

Obecnie po drodze konwertuję wszystko na Unicode, łączę to wszystko w łańcuch Pythona, a następnie robię:

importuj kodeki f = codecs.open("out.txt", mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859 -1", "replace")) 

W ostatnim wierszu wystąpił błąd kodowania:

UnicodeDecodeError: kodek „ascii” nie może dekodować byte 0xa0 na pozycji 12286: liczba porządkowa poza zakresem(128)

Rozwiązanie częściowe:

Ten Python działa bez błędu:

row = [unicode(x.strip()) jeśli x nie jest Żaden inny u"" dla x w wierszu] all_html = row[0] + "<br/>" + wiersz [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8")) 

Ale wtedy jeśli otworzę rzeczywisty plik tekstowy, widzę wiele symboli, takich jak:

Qur‚Ęö√Ñ√¥an 

Może muszę napisać do czegoś innego niż plik tekstowy?