प्रगत भारत: July 2007

Standardisation of Roman Transliteration of Indic Scripts
भारतीय लिपियों के पाठ को रोमन लिपि में लिप्यन्तरण हेतु मानकों का निर्धारण

देवनागरी तथा अन्य भारतीय लिपियों के पाठ को रोमन लिपि में प्रकट करके येन-केन प्रकारेण कम्प्यूटर तथा इण्टरनेट पर संचार करने के लिए अनेक पद्धतियाँ प्रचलित हैं, जिनमें अविनाश चोपड़े जी द्वारा विकसित आईट्रान्स (ITrans) सबसे ज्यादा प्रचलन में रही है। इसके साथ विनय जैन जी का हिट्रान्स (Hitrans) भी काफी लोकप्रिय हुआ है। क्योंकि यह हाथोंहाथ (Instant) और पूर्वटंकित पाठ दोनों को युनिकोड देवनागरी में परिवर्तित करने की सुविधा प्रदान करता है। साथ ही इसका यूजर इण्टरफेस भी सरल और सुबोध है।

ओंकारानन्द आश्रम, हिमालय द्वारा विकसित आईट्रान्सलेटर (ITranslator) संस्कृत पाठ को रोमन लिपि (Roman) में तथा ISCII, True Type 8 Bit फोंट-विशेष तथा युनिकोड (तीनों रूपों) में तत्काल बदलने के लिए बहुत ही उपयोगी माना गया है।

वर्तमान भारतीय भाषाओं के कम्प्यूटर पर संसाधन के लिए दो ही मानक उपलब्ध हैं। (1) 1991 में भारतीय मानक ब्यूरो द्वारा मानकीकृत (IS 13194:1991) परिशोधित इस्की (ISCII-1991) , (2) युनिकोड (Unicode)

8-Bit ISCII का कोड चार्ट यह है:

इनमें इस्की मानक तो इण्टरनेट के प्रचलन के बाद पुराने तथा बेकार (outdated) हो गए हैं, क्योंकि ये 8 bit ASCII के ही सुपरसेट थे। अर्थात् ASCII के ऊपर पैबन्द की तरह चिपके थे। ISCII सिर्फ भारत के अन्दर तक सीमित रहा। अन्तर्राष्ट्रीय स्तर पर ISCII के लिए कोई अलग कोडपेज (CodePage) निर्धारित नहीं हो पाया था।

इस्की कूटों के ही एक उपखण्ड (Subset) के रूप में रोमन लिपि में लिप्यन्तरण (Roman Script Transliteration) के लिए एक मानक निर्धारित किया गया था। जो ISCII दस्तावेज के ANNEX-F में दिया गया है। ये मानक 1988 में नेशनल लाईब्रेरी, कोलकाता द्वारा निर्धारित योजना पर आधारित थे। इसमें भारतीय लिपियों के पाठ को रोमन लिपि में लिख पाने के लिए रोमन लिपि के कुछ अक्षरों के ऊपर कुछ विशेष चिह्न लगाकर प्रकट किया गया था:

इसी के अनुपालन में सी-डैक के ISCII आधारित भारतीय भाषाओं के संसाधन के लिए विकसित सॉफ्टवेयर आई.एस.एम. (ISM) तथा आईलीप (ileap) तथा लीप-ऑफिस में सिर्फ एक क्लिक करते ही भारतीय भाषाओं के मध्य तथा रोमन लिपि (डायक्रिटिक चिह्न सहित) में बदलने के की सुविधा उपलब्ध कराई गई थी। इसके लिए सीडैक, पुणे ने देवनागरी के समतुल्य व समरूप अंग्रेजी के मैचिंग फोंट भी बनाए थे, जिनमें अंग्रेजी अक्षरों के ऊपर डैयाक्रिटिक चिह्न (mark) अन्तःनिर्मित (inbuilt) रखे गए थे। उदाहरण के लिए DVYG1NTT.TTF का कैरेक्टर-मैप देखें, जिसमें लाल घेरे में आबद्ध अंग्रेजी के आवश्यक अक्षरों पर लगाए गए उच्चारण-बोधक चिह्नों (Accent Marks) वाले अक्षर दिख रहे हैं:

किन्तु यह सभी लिप्यन्तरण प्रणालियाँ 8-bit फोंट्स पर आधारित होने के कारण इनके प्रदर्शन तथा मुद्रण के लिए फोंट-विशेष का उक्त कम्प्यूटर में होना अनिवार्य होता था। इस कारण इण्टरनेट के लिए सक्षम साबित नहीं हो पाईँ और युनिकोड के आविर्भाव के बाद ये स्वतः मृत प्रायः हो गईं। क्योंकि इण्टरनेट एक्सप्लोर 6.0 (IE 6.x) के बाद युनिकोडित लिपियों के फोंट्स इसकी सीस्टम फाइलों में अन्तःनिर्मित (inbuilt) होते हैं। किसी प्रकार के फोंट्स को डाउनलोड तथा इन्स्टॉल करने का झमेला नहीं रहता।

युनिकोड दो बाईट वाली 16 बिट प्रणाली होने के कारण पुराने कम्प्यूटरों तथा पुराने आपरेटिंग सीस्टम्स पर नहीं चल पाती। युनिकोड में भारतीय लिपियों में वर्णक्रमानुसार छँटाई (Sorting), सूचकांकन (Indexing) तथा डैटाबेस प्रबन्धन (Database Management) में अनेक जटिल समस्याएँ हैं। भाषाओं की प्रोसेसिंग में भी कई बड़ी बाधाओं का सामना करना पड़ता है। अतः ISCII और Unicode ये दोनों ही भारतीय भाषाओं की कम्प्यूटिंग के लिए पूर्णतया सरल एवं उपयुक्त नहीं हैं। यहाँ तिमंजिली सड़क पर चलने की तरह या तीन नावों में पैर रख कर समुद्र पार करने की तरह ही भारतीय भाषाओं का संसाधन (Processing) करना पड़ता है।

(1) कुंजीपटल (Key-board Input - IME) अंग्रेजी के 26+26=52 अक्षरों +अन्य चिह्नों के 101 या 104 कुंजियों वाले कीबोर्ड पर ही भारतीय भाषाओं के टंकण के लिए योजना, जो "Replace this key to that" सिद्धान्त पर आधारित है। उदाहरण के लिए यदि आपको देवनागरी का 'अ' अक्षर टाइप करना है, तो इन्स्क्रिप्ट की-बोर्ड-लेआउट में कुंजीपटल पर D (केपिटल डी अर्थात Shift key दबाए रखकर d) टाइप करना होता है। 'D' का ASCII Hex Code है '44', कम्प्यूटर में स्थापित Indic IME प्रोग्राम इसे युनिकोड की दोबाइट में बदलकर स्क्रीन पर प्रकट करेगा, जिसका युनिकोड कोड है 'U+0905'.

(2) कम्प्यूटर के आन्तरिक संसाधन के लिए सीमित Unicode में encoded अक्षरों/चिह्नों की सीमाओं के अन्दर संसाधन, जो पारम्परिक रूप में प्रकट होनेवाली देवनागरी लिपि से बिल्कुल अलग होंगें, सिर्फ मूल अक्षर ही इसमें शामिल किए गए हैं। इन्हें के अन्दर समग्र संसाधन करना होगा।

(3) पारम्परिक/प्रचलित रूप में देवनागरी(तथा अन्य भारतीय लिपियों) के अक्षरों, संयुक्ताक्षरों, मात्राओं युक्त अक्षरों को स्क्रीन पर प्रदर्शित करने (rendering) और कागज पर मुद्रित करने (Printing) के लिए लिए ओपेन टाइप फोंट्स में (Open Type Fonts ) Glyph Substitution, Glyph Positioning इत्यादि जैसे जटिल algorithms का प्रयोग

अतः भारतीय आई.आई.टी. संस्थानों द्वारा उन्नत कम्प्यूटर संसाधन (Advannced Computing) तथा प्राकृतिक भाषा संसाधन (Natural Language Processing) के लिए WX encoding को विकसित करके इनका उपयोग करना पड़ा है। इसका नामकरण WX देने का कारण यह था कि सामान्यतः अंग्रेजी भाषा में W और X से आरम्भ होने वाले शब्दों की संख्या सबसे कम होती है। यह पद्धति एक अक्षर के लिए सिर्फ एक कुँजी प्रणाली पर आधारित है, ताकि कम से कम परिश्रम और कम से कम समय में भारतीय लिपियों में कम्प्यूटर में पाठ प्रविष्टि या टाइप किया जा सके।

इसमें मुख्यतः t=ट, T=ठ, d=ड, D=ढ का प्रयोग किया गया तथा w=त, W=थ, x=द, X=ध का प्रयोग किया गया है। क्योंकि सामान्यतया अंग्रेजी (Roman) लिपि में हिन्दी पाठ को लिखते वक्त W और X का प्रयोग बहुत कम होता है। व के लिए w के बदले v=व का प्रयोग किया जाता है

अतः कम्प्यूटर के आन्तरिक संसाधन तथा स्क्रीन पर प्रदर्शन में एकमुखी/एकमंजिली योजना के लिए अंग्रेजी के रोमन अक्षरों की सीमाओं के अन्दर ही कार्य करना सरल और सस्ता होता है। इसीलिए कई विद्वान भारतीय भाषाओं का भी लेखन और संसाधन रोमन लिपि में करने के पक्षधर रहे हैं। इनमें श्री मधुकर गोगाते जी का नाम सबसे आगे लिया जा सकता है।

किन्तु इण्टरनेट पर विश्वस्तरीय संचार के लिए युनिकोड कूट ही एकमात्र मानकीकृत बहुभाषी कूट उपलब्ध हैं। बिना युनिकोड का सहारा लिए विश्व की विभिन्न भाषाओं/लिपियों में कुछ भी संचार कर पाना लगभग असम्भव है।

युनिकोड के आविर्भाव के बाद युनिकोड में भारतीय लिपियों के मध्य लिप्यन्तरण के लिए सबसे पहले कार्य किया था आलोक कुमार जी ने। उन्होंने ये सुविधाएँ गिरगिट पर उपलब्ध कराईँ। इसी का एक और वर्सन
यहाँ भी उपलब्ध है। इसके वेबपृष्ठ को सेव्ह करके ऑफ लाइन भी उपयोग किया जा सकता है। तथा पहले से टंकित पाठ को भारतीय लिपियों के मध्य लिप्यन्तरित किया जा सकता है।

किन्तु इस दिशा में सबसे महत्वपूर्ण कार्य किया पीयूष भट्ट जी ने भोमियो पर। इन्होने देवनागरी तथा भारतीय भाषाओं में संसाधित किसी भी समग्र वेबसाइट को भी कुछ क्षणों में ही तत्काल इच्छित लिपि में बदलकर इण्टरनेट पर पाठक को पढ़ पाने की आश्चर्यजनक जादुई सुविधा उपलब्ध कराई है। अनेक हिन्दी तथा अन्य भारतीय भाषाओं के चिट्ठाकारों (ब्लॉग-लेखकों) तथा कई वेबसाइटों पर भोमियो के लिप्यन्तरण उपकरण की कड़ी जोड़ी जा चुकी है। जहाँ पर क्लिक करते ही इच्छित लिपि में वह वेबपृष्ठ बदलकर प्रकट हो जाता है।

हालांकि लिप्यन्तरित पाठ शत-प्रतिशत सही नहीं हो पा रहा है, जिसका कारण युनिकोड में कुछ भाषाओं के अक्षरों के निर्धारण में रह गईं मूलभूत गलतियाँ तथा भाषा-विशेष के लिए कुछ अक्षरों को अभाव हैं।

भोमियो पर भारतीय भाषाओं के पाठ को रोमन लिपि में बदलकर प्रकट करने की सुविधा भी उपलब्ध कराई गई है। इसके द्वारा लिप्यन्तरित रोमन पाठ यथासम्भव सरल तथा प्रचलित रोमन शब्द-धारा में प्रदर्शित होता है। किन्तु इसमें कुछ गलतियाँ/त्रुटियाँ रहना स्वाभाविक है, क्योंकि रोमन लिपि भारतीय भाषाओं के पाठ को शत-प्रतिशत शुद्ध रूप में प्रकट कर पाने में सर्वथा असमर्थ है।

रोमन लिपि में भारतीय भाषाओं/लिपियों के पाठ को लिखने/कम्प्यूटर पर संसाधित करने के लिए अभी तक उपलब्ध अनेक पद्धतियों में आपस में तालमेल (compatibilty) न होने के कारण उपयोगकर्ताओं को काफी समस्याओं का सामना करना पड़ता है। एकरूपता के अभाव में सूचनाओं के संचार में भारी लागत, भारी हानि भी उठानी पड़ती है। अतः इसका भी मानकीकरण (Standardisation) किया जाना आवश्यक है।

अतः एक सबसे उपयुक्त पद्धति को मानकीकृत करने के लिए विभिन्न भारतीय तथा अन्तर्राष्ट्रीय तकनीकी विद्वानों द्वारा काफी प्रयास किए गए हैं। तदनुरूप 2002 में भारत सरकार के सूचना प्रौद्योगिकी मंत्रालय के अधीन "भारतीय भाषाओं के लिए प्रौद्योगिकी विकास" अनुभाग द्वारा ऐसे एक मानक "INSROT" (Indian Script to Roman Transliteration) के मसौदे (Draft) जारी किए गए थे। जिनका विभिन्न लोगों के फीडबैक के बाद परिशोधन भी किया गया है।

सभी विद्वान यदि इसे देखें-परखें और सुधार हेतु अपने सुझाव तथा समर्थन भेजें तो इसका मानकीकरण जल्दी किया जा सकता है।

Itrans, Hitrans, WX, इत्यादि पद्धतियों में Roman Text लिखने में सबसे बड़ी असुविधा होती थी कुछ वर्ण विशेष के लिए बड़े अक्षरों (Capital letters) का प्रयोग किए जाने से। क्योंकि MS Word, Pagemaker तथा अन्य कुछ प्रोग्रामों में यदि select all चयन करके Change Case (All Caps या All Small या First letter Caps) की भी सुविधा होती है, जिसका उपयोग करके यदि Capital/small में बदल दिया जाए तो समग्र पाठ का अर्थ का अनर्थ हो जाता है। और फिर विभिन्न डैटाबेस उपयोगों, इण्टरनेट सर्च इंजिनों, ईमेल-पते आदि में Small/Captial के निर्विशेष से searching, sorting, indexing आदि होती है। अतः ये पद्धतियाँ तकनीकी दृष्टि से उपयुक्त सिद्ध नहीं हुई।

तकनीकी रूप से सही लिप्यन्तरण वही माना जाएगा जो भारतीय लिपि के हर शब्द को हू-ब-हू रोमन में बदले तथा फिर वापस रोमन से भारतीय लिपि में हू-ब-हू बदल सके। इस दौरान कोई बिगड़ाव न हो तथा कोई द्विअर्थी भाव प्रकट न हो। किसी भी दो प्रकार के उच्चारण विभेद या वर्ण विभेद को स्पष्ट प्रकट किया जा सके। इसका ध्यान INSROT में रखा गया है। उदाहरण के लिए

अतः = ata:
अत्ह = ath'a
फ = pha
प्ह = ph'a

के मध्य भी अन्तर स्पष्ट रखने की व्यवस्था है। देवनागरी से रोमन और रोमन से वापस देवनागरी में लिप्यन्तरण करने पर कोई गड़बड़ी नहीं हो, इसका ध्यान रखा गया है। सम्पर्ण पाठ को यदि CAPITAL या SMALL letters में बदल दिया जाए तो भी मूल पाठ परिवर्तित न हो इसका ध्यान रखा गया है।

INSROT को यदि अधिकाधिक विद्वानों/उपयोगकर्ताओं का समर्थन मिले तो इसे शीघ्र मानकीकृत किया जा सकता है, और विश्वस्तर पर भारतीय लिपियों के प्रयोग को एकरूपता मिल सकती है।

अतः सभी विद्वानों, पाठकों, हिन्दी तथा भारतीय भाषाओं के चिट्ठाकारों से अनुरोध है कि कृपया सभी अपने सुझाव दें, आनेवाली व्यावहारिक समस्याओं से अवगत कराते हुए सुझाव दें और अपना समर्थन दें।

भोमियो में यदि प्रायोगिक तौर पर INSROT के मसौदे(Draft) सूत्र अपना कर परीक्षण किया जाए तो अधिकाधिक लोग इसे सरलता से टेस्टिंग करके इसकी practical समस्याएँ, यदि कोई सामने आएँ, से अवगत हो सकेंगे, सूचना दे सकेंगे, फीडबैक दे सकेंगे। अधिकाधिक व्यावहारिक सुझाव मिलने पर उनके समाधान के लिए प्रयास किए जा सकेंगे।

क्योंकि एक बार मानकीकरण हो जाने के बाद उसे बदलना बहुत कठिन (लगभग असम्भव) हो जाता है। यदि बारम्बार सुधार/बदलाव किए जाते रहे तो फिर Stability Policy ही कैसे टिक पाएगी।

प्रगत भारत

11 Jul 2007

रोमन लिपि में लिप्यन्तरण हेतु मानक-निर्धारण

इस चिट्ठे पर नए पोस्ट की सूचना पाने के लिए अपना ईमेल पता यहाँ सबस्क्राईब करें

जय जगन्नाथ

अतिथि स्वागतम्

विषय-श्रेणियाँ

मासिक संग्रहीत Blog Archive

मेरे बारे में...

सर्वाधिकार सुरक्षित

महत्वपूर्ण कड़ियाँ

ब्लॉगवाणी

ब्लॉगअड्डा