Unicode-tekst naar een tekstbestand schrijven?

| | | | | | | | | | | | |

Ik haal gegevens uit een Google-document, verwerk het en schrijf het naar een bestand (dat ik uiteindelijk in een Wordpress-pagina plak).

Het heeft een aantal niet-ASCII-symbolen. Hoe kan ik deze veilig converteren naar symbolen die kunnen worden gebruikt in de HTML-bron?

Momenteel converteer ik alles naar Unicode onderweg, voeg het allemaal samen in een Python-string en doe dan:

codecs importeren f = codecs.open("out.txt", mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859 -1", "replace")) 

Er is een coderingsfout op de laatste regel:

UnicodeDecodeError: "ascii" codec kan niet decoderen byte 0xa0 op positie 12286: ordinaal niet in bereik(128)

Gedeeltelijke oplossing:

Deze Python werkt foutloos:

rij = [unicode(x.strip()) als x niet Geen anders is u"" voor x in rij] all_html = rij[0] + "<br/>" + rij [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8")) 

Maar als ik dan het eigenlijke tekstbestand open, zie ik veel symbolen zoals:

Qur’an 

Misschien moet ik schrijven naar iets anders dan een tekstbestand?