PythonでUnicode文字列を使用しているので、すべてのアクセント記号(発音区別符号)を削除したいと思います。
これを行うためのエレガントな方法(Javaで)をWebで見つけました:
- Unicode文字列を長い正規化された形式に変換します(文字と発音区別符号には別の文字を使用)
- すべてを削除しますUnicodeタイプが「発音区別符号」である文字。
pyICUなどのライブラリをインストールする必要がありますか、それともPython標準ライブラリだけで可能ですか?また、Python 3についてはどうでしょうか?
重要な注意:アクセント付き文字からアクセントなしの文字への明示的なマッピングを伴うコードは避けたいと思います。