मैं एक Google दस्तावेज़ से डेटा निकाल रहा हूं, इसे संसाधित कर रहा हूं, और इसे एक फ़ाइल में लिख रहा हूं (जो अंततः मैं एक Wordpress पृष्ठ में पेस्ट करूंगा)।
इसमें कुछ गैर-ASCII प्रतीक हैं। मैं इन्हें सुरक्षित रूप से उन प्रतीकों में कैसे बदल सकता हूं जिनका उपयोग HTML स्रोत में किया जा सकता है?
वर्तमान में मैं रास्ते में सब कुछ यूनिकोड में परिवर्तित कर रहा हूं, इसे एक पायथन स्ट्रिंग में एक साथ जोड़ रहा हूं, फिर कर रहा हूं:
p>आयात कोडेक्स f = codecs.open("out.txt", mode="w", Encoding="iso-8859-1") f.write(all_html.encode("iso-8859) -1", "बदलें"))
अंतिम पंक्ति में एक एन्कोडिंग त्रुटि है:
UnicodeDecodeError: "ascii" कोडेक डिकोड नहीं कर सकता बाइट 0xa0 पोजीशन 12286 में: ऑर्डिनल नॉट इन रेंज(128)
आंशिक समाधान:
यह पायथन बिना किसी त्रुटि के चलता है:
p>row = [unicode(x.strip()) अगर x कोई और नहीं है u"" पंक्ति में x के लिए] all_html = row[0] + "<br/>" + row [1] f = open("out.txt", "w") f.write(all_html.encode("utf-8"))
लेकिन फिर अगर मैं वास्तविक टेक्स्ट फ़ाइल खोलता हूं, तो मुझे बहुत सारे प्रतीक दिखाई देते हैं जैसे:
टेक्स्ट फ़ाइल के अलावा किसी और चीज़ के लिए?