मेरे पास पायथन में एक यूनिकोड स्ट्रिंग है, और मैं सभी उच्चारण (डायक्रिटिक्स) को हटाना चाहता हूं।
मुझे वेब पर ऐसा करने का एक शानदार तरीका मिला (जावा में):
- यूनिकोड स्ट्रिंग को उसके लंबे सामान्यीकृत रूप में बदलें (अक्षरों और विशेषक के लिए एक अलग वर्ण के साथ)
- सभी हटा दें ऐसे अक्षर जिनका यूनिकोड प्रकार "डायक्रिटिक" है। और अजगर 3 के बारे में क्या?
महत्वपूर्ण नोट: मैं उच्चारण वाले वर्णों से उनके गैर-उच्चारण समकक्ष के लिए स्पष्ट मानचित्रण वाले कोड से बचना चाहूंगा।