Sto avendo un problema cerebrale nella comprensione della lettura e della scrittura di testo su un file (Python 2.4).
# La stringa, che contiene un a-acuto. ss = u "Capitxe1n" ss8 = ss.encode("utf8") repr(ss), repr(ss8)
("u"Capitxe1n"", ""Capitxc3xa1n"")
print ss, ss8 print >> open("f1","w"), ss8 >>> file("f1").read( ) "Capitxc3xa1n "
Quindi scrivo Capitxc3xa1n
nel mio editor preferito, nel file f2.
Quindi:
>>> open("f1").read() "Capitxc3xa1n " >>> open("f2").read() "Capitxc3xa1n " >> ;> open("f1").read().decode("utf8") u"Capitxe1n " >>> open("f2").read().decode("utf8") u"Capit xc3xa1n "
Cosa non capisco qui? Chiaramente c'è un po' di magia (o buon senso) che mi sfugge. Che cosa si digita nei file di testo per ottenere conversioni corrette?
Quello che non riesco davvero a fare qui, è qual è lo scopo della rappresentazione UTF-8, se non puoi effettivamente ottenere Python su riconoscerlo, quando viene da fuori. Forse dovrei semplicemente scaricare la stringa JSON e usarla invece, poiché ha una rappresentazione asciiable! Più precisamente, esiste una rappresentazione ASCII di questo oggetto Unicode che Python riconoscerà e decodificherà, quando arriverà da un file? In tal caso, come posso ottenerlo?
>>> print simplejson.dumps(ss) ""Capitu00e1n"" >>> stampa >> file("f3","w"), simplejson.dumps(ss) >>> simplejson.load(open("f3")) u"Capitxe1n"