Wyciągam dane z dokumentu Google, przetwarzam je i zapisuję do pliku (który ostatecznie wkleję na stronę Wordpress).
Ma kilka symboli spoza ASCII. Jak mogę je bezpiecznie przekonwertować na symbole, które mogą być użyte w źródle HTML?
Obecnie po drodze konwertuję wszystko na Unicode, łączę to wszystko w łańcuch Pythona, a następnie robię:
importuj kodeki f = codecs.open("out.txt", mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859 -1", "replace"))
W ostatnim wierszu wystąpił błąd kodowania:
UnicodeDecodeError: kodek „ascii” nie może dekodować byte 0xa0 na pozycji 12286: liczba porządkowa poza zakresem(128)
Rozwiązanie częściowe:
Ten Python działa bez błędu:
row = [unicode(x.strip()) jeśli x nie jest Żaden inny u"" dla x w wierszu] all_html = row[0] + "<br/>" + wiersz [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8"))
Ale wtedy jeśli otworzę rzeczywisty plik tekstowy, widzę wiele symboli, takich jak:
Qur‚Ęö√Ñ√¥an
Może muszę napisać do czegoś innego niż plik tekstowy?