Googleドキュメントからデータを取り出して処理し、ファイルに書き込みます(最終的には、Wordpressページに貼り付けます)。
ASCII以外の記号がいくつかあります。これらをHTMLソースで使用できる記号に安全に変換するにはどうすればよいですか?
現在、すべてをUnicodeに変換し、Python文字列にまとめて、次のようにしています。
import codecs f = codecs.open( "out.txt"、mode = "w"、encoding = "iso-8859-1")f.write(all_html.encode( "iso-8859 -1"、" replace "))
最後の行にエンコードエラーがあります:
UnicodeDecodeError:"ascii"コーデックはデコードできません位置12286のバイト0xa0:通常は範囲内にありません(128)
部分的な解決策:
このPythonはエラーなしで実行されます:
row = [unicode(x.strip())if x is not None else u "" for x in row] all_html = row [0] + "< br />" + row [1] f = open( "out.txt"、 "w")f.write(all_html.encode( "utf-8"))
しかし、次に、実際のテキストファイルを開くと、次のような記号がたくさん表示されます。
Qur’an
多分私は書く必要がありますテキストファイル以外のものに?