एक टेक्स्ट फ़ाइल में यूनिकोड टेक्स्ट लिखना?

| | | | | | | | | | | | |

मैं एक Google दस्तावेज़ से डेटा निकाल रहा हूं, इसे संसाधित कर रहा हूं, और इसे एक फ़ाइल में लिख रहा हूं (जो अंततः मैं एक Wordpress पृष्ठ में पेस्ट करूंगा)।

इसमें कुछ गैर-ASCII प्रतीक हैं। मैं इन्हें सुरक्षित रूप से उन प्रतीकों में कैसे बदल सकता हूं जिनका उपयोग HTML स्रोत में किया जा सकता है?

वर्तमान में मैं रास्ते में सब कुछ यूनिकोड में परिवर्तित कर रहा हूं, इसे एक पायथन स्ट्रिंग में एक साथ जोड़ रहा हूं, फिर कर रहा हूं:

p>
आयात कोडेक्स f = codecs.open("out.txt", mode="w", Encoding="iso-8859-1") f.write(all_html.encode("iso-8859) -1", "बदलें")) 

अंतिम पंक्ति में एक एन्कोडिंग त्रुटि है:

UnicodeDecodeError: "ascii" कोडेक डिकोड नहीं कर सकता बाइट 0xa0 पोजीशन 12286 में: ऑर्डिनल नॉट इन रेंज(128)

आंशिक समाधान:

यह पायथन बिना किसी त्रुटि के चलता है:

p>
row = [unicode(x.strip()) अगर x कोई और नहीं है u"" पंक्ति में x के लिए] all_html = row[0] + "<br/>" + row [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8")) 

लेकिन फिर अगर मैं वास्तविक टेक्स्ट फ़ाइल खोलता हूं, तो मुझे बहुत सारे प्रतीक दिखाई देते हैं जैसे:

टेक्स्ट फ़ाइल के अलावा किसी और चीज़ के लिए?