Ich hole Daten aus einem Google-Dokument, verarbeite sie und schreibe sie in eine Datei (die ich schließlich in eine Wordpress-Seite einfügen werde).
Es enthält einige Nicht-ASCII-Symbole. Wie kann ich diese sicher in Symbole umwandeln, die in HTML-Quellen verwendet werden können?
Derzeit konvertiere ich auf dem Weg hinein alles in Unicode, füge alles in einer Python-Zeichenfolge zusammen und mache dann:
Codecs importieren f = codecs.open("out.txt", mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859 -1", "replace"))
In der letzten Zeile ist ein Codierungsfehler aufgetreten:
UnicodeDecodeError: "ascii" codec can't decode Byte 0xa0 an Position 12286: Ordnungszahl nicht im Bereich (128)
Teillösung:
Dieser Python läuft ohne Fehler:
row = [unicode(x.strip()) if x is not None else u"" for x in row] all_html = row[0] + "<br/>" + row [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8"))
Aber Wenn ich dann die eigentliche Textdatei öffne, sehe ich viele Symbole wie:
Qur’an
Vielleicht muss ich schreiben in etwas anderes als eine Textdatei?