Unicode metni bir metin dosyasına mı yazıyorsunuz?

| | | | | | | | | | | | |

Bir Google dokümanından veri çekiyorum, işliyorum ve bir dosyaya yazıyorum (en sonunda bir Wordpress sayfasına yapıştıracağım).

ASCII olmayan bazı sembollere sahip. Bunları güvenli bir şekilde HTML kaynağında kullanılabilecek sembollere nasıl dönüştürebilirim?

Şu anda yoldayken her şeyi Unicode'a dönüştürüyor, hepsini bir Python dizesinde birleştiriyor ve ardından şunu yapıyorum:

p>

kod çözücüleri içe aktar f = codecs.open("out.txt", mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859) -1", "replace")) 

Son satırda bir kodlama hatası var:

UnicodeDecodeError: "ascii" codec'inin kodu çözülemiyor bayt 0xa0 12286 konumunda: sıralı aralıkta değil (128)

Kısmi çözüm:

Bu Python hatasız çalışır:

row = [unicode(x.strip()) eğer x değilse Hiçbiri Başkası yok u"" için x in satır] all_html = satır[0] + "<br/>" + satır [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8")) 

Ama o zaman gerçek metin dosyasını açarsam, aşağıdaki gibi birçok sembol görüyorum:

Quur’an 

Belki yazmam gerekiyor bir metin dosyasından başka bir şeye mi?