Ik haal gegevens uit een Google-document, verwerk het en schrijf het naar een bestand (dat ik uiteindelijk in een Wordpress-pagina plak).
Het heeft een aantal niet-ASCII-symbolen. Hoe kan ik deze veilig converteren naar symbolen die kunnen worden gebruikt in de HTML-bron?
Momenteel converteer ik alles naar Unicode onderweg, voeg het allemaal samen in een Python-string en doe dan:
codecs importeren f = codecs.open("out.txt", mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859 -1", "replace"))
Er is een coderingsfout op de laatste regel:
UnicodeDecodeError: "ascii" codec kan niet decoderen byte 0xa0 op positie 12286: ordinaal niet in bereik(128)
Gedeeltelijke oplossing:
Deze Python werkt foutloos:
rij = [unicode(x.strip()) als x niet Geen anders is u"" voor x in rij] all_html = rij[0] + "<br/>" + rij [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8"))
Maar als ik dan het eigenlijke tekstbestand open, zie ik veel symbolen zoals:
Qur’an
Misschien moet ik schrijven naar iets anders dan een tekstbestand?