Standardisation of Roman Transliteration of Indic Scripts
भारतीय लिपियों के पाठ को रोमन लिपि में लिप्यन्तरण हेतु मानकों का निर्धारण
देवनागरी तथा अन्य भारतीय लिपियों के पाठ को रोमन लिपि में प्रकट करके येन-केन प्रकारेण कम्प्यूटर तथा इण्टरनेट पर संचार करने के लिए अनेक पद्धतियाँ प्रचलित हैं, जिनमें अविनाश चोपड़े जी द्वारा विकसित आईट्रान्स (ITrans) सबसे ज्यादा प्रचलन में रही है। इसके साथ विनय जैन जी का हिट्रान्स (Hitrans) भी काफी लोकप्रिय हुआ है। क्योंकि यह हाथोंहाथ (Instant) और पूर्वटंकित पाठ दोनों को युनिकोड देवनागरी में परिवर्तित करने की सुविधा प्रदान करता है। साथ ही इसका यूजर इण्टरफेस भी सरल और सुबोध है।
ओंकारानन्द आश्रम, हिमालय द्वारा विकसित आईट्रान्सलेटर (ITranslator) संस्कृत पाठ को रोमन लिपि (Roman) में तथा ISCII, True Type 8 Bit फोंट-विशेष तथा युनिकोड (तीनों रूपों) में तत्काल बदलने के लिए बहुत ही उपयोगी माना गया है।
वर्तमान भारतीय भाषाओं के कम्प्यूटर पर संसाधन के लिए दो ही मानक उपलब्ध हैं। (1) 1991 में भारतीय मानक ब्यूरो द्वारा मानकीकृत (IS 13194:1991) परिशोधित इस्की (ISCII-1991) , (2) युनिकोड (Unicode)
8-Bit ISCII का कोड चार्ट यह है:
इनमें इस्की मानक तो इण्टरनेट के प्रचलन के बाद पुराने तथा बेकार (outdated) हो गए हैं, क्योंकि ये 8 bit ASCII के ही सुपरसेट थे। अर्थात् ASCII के ऊपर पैबन्द की तरह चिपके थे। ISCII सिर्फ भारत के अन्दर तक सीमित रहा। अन्तर्राष्ट्रीय स्तर पर ISCII के लिए कोई अलग कोडपेज (CodePage) निर्धारित नहीं हो पाया था।
इस्की कूटों के ही एक उपखण्ड (Subset) के रूप में रोमन लिपि में लिप्यन्तरण (Roman Script Transliteration) के लिए एक मानक निर्धारित किया गया था। जो ISCII दस्तावेज के ANNEX-F में दिया गया है। ये मानक 1988 में नेशनल लाईब्रेरी, कोलकाता द्वारा निर्धारित योजना पर आधारित थे। इसमें भारतीय लिपियों के पाठ को रोमन लिपि में लिख पाने के लिए रोमन लिपि के कुछ अक्षरों के ऊपर कुछ विशेष चिह्न लगाकर प्रकट किया गया था:
किन्तु यह सभी लिप्यन्तरण प्रणालियाँ 8-bit फोंट्स पर आधारित होने के कारण इनके प्रदर्शन तथा मुद्रण के लिए फोंट-विशेष का उक्त कम्प्यूटर में होना अनिवार्य होता था। इस कारण इण्टरनेट के लिए सक्षम साबित नहीं हो पाईँ और युनिकोड के आविर्भाव के बाद ये स्वतः मृत प्रायः हो गईं। क्योंकि इण्टरनेट एक्सप्लोर 6.0 (IE 6.x) के बाद युनिकोडित लिपियों के फोंट्स इसकी सीस्टम फाइलों में अन्तःनिर्मित (inbuilt) होते हैं। किसी प्रकार के फोंट्स को डाउनलोड तथा इन्स्टॉल करने का झमेला नहीं रहता।
युनिकोड दो बाईट वाली 16 बिट प्रणाली होने के कारण पुराने कम्प्यूटरों तथा पुराने आपरेटिंग सीस्टम्स पर नहीं चल पाती। युनिकोड में भारतीय लिपियों में वर्णक्रमानुसार छँटाई (Sorting), सूचकांकन (Indexing) तथा डैटाबेस प्रबन्धन (Database Management) में अनेक जटिल समस्याएँ हैं। भाषाओं की प्रोसेसिंग में भी कई बड़ी बाधाओं का सामना करना पड़ता है। अतः ISCII और Unicode ये दोनों ही भारतीय भाषाओं की कम्प्यूटिंग के लिए पूर्णतया सरल एवं उपयुक्त नहीं हैं। यहाँ तिमंजिली सड़क पर चलने की तरह या तीन नावों में पैर रख कर समुद्र पार करने की तरह ही भारतीय भाषाओं का संसाधन (Processing) करना पड़ता है।
(1) कुंजीपटल (Key-board Input - IME) अंग्रेजी के 26+26=52 अक्षरों +अन्य चिह्नों के 101 या 104 कुंजियों वाले कीबोर्ड पर ही भारतीय भाषाओं के टंकण के लिए योजना, जो "Replace this key to that" सिद्धान्त पर आधारित है। उदाहरण के लिए यदि आपको देवनागरी का 'अ' अक्षर टाइप करना है, तो इन्स्क्रिप्ट की-बोर्ड-लेआउट में कुंजीपटल पर D (केपिटल डी अर्थात Shift key दबाए रखकर d) टाइप करना होता है। 'D' का ASCII Hex Code है '44', कम्प्यूटर में स्थापित Indic IME प्रोग्राम इसे युनिकोड की दोबाइट में बदलकर स्क्रीन पर प्रकट करेगा, जिसका युनिकोड कोड है 'U+0905'.
(2) कम्प्यूटर के आन्तरिक संसाधन के लिए सीमित Unicode में encoded अक्षरों/चिह्नों की सीमाओं के अन्दर संसाधन, जो पारम्परिक रूप में प्रकट होनेवाली देवनागरी लिपि से बिल्कुल अलग होंगें, सिर्फ मूल अक्षर ही इसमें शामिल किए गए हैं। इन्हें के अन्दर समग्र संसाधन करना होगा।
(3) पारम्परिक/प्रचलित रूप में देवनागरी(तथा अन्य भारतीय लिपियों) के अक्षरों, संयुक्ताक्षरों, मात्राओं युक्त अक्षरों को स्क्रीन पर प्रदर्शित करने (rendering) और कागज पर मुद्रित करने (Printing) के लिए लिए ओपेन टाइप फोंट्स में (Open Type Fonts ) Glyph Substitution, Glyph Positioning इत्यादि जैसे जटिल algorithms का प्रयोग
अतः भारतीय आई.आई.टी. संस्थानों द्वारा उन्नत कम्प्यूटर संसाधन (Advannced Computing) तथा प्राकृतिक भाषा संसाधन (Natural Language Processing) के लिए WX encoding को विकसित करके इनका उपयोग करना पड़ा है। इसका नामकरण WX देने का कारण यह था कि सामान्यतः अंग्रेजी भाषा में W और X से आरम्भ होने वाले शब्दों की संख्या सबसे कम होती है। यह पद्धति एक अक्षर के लिए सिर्फ एक कुँजी प्रणाली पर आधारित है, ताकि कम से कम परिश्रम और कम से कम समय में भारतीय लिपियों में कम्प्यूटर में पाठ प्रविष्टि या टाइप किया जा सके।
इसमें मुख्यतः t=ट, T=ठ, d=ड, D=ढ का प्रयोग किया गया तथा w=त, W=थ, x=द, X=ध का प्रयोग किया गया है। क्योंकि सामान्यतया अंग्रेजी (Roman) लिपि में हिन्दी पाठ को लिखते वक्त W और X का प्रयोग बहुत कम होता है। व के लिए w के बदले v=व का प्रयोग किया जाता है
अतः कम्प्यूटर के आन्तरिक संसाधन तथा स्क्रीन पर प्रदर्शन में एकमुखी/एकमंजिली योजना के लिए अंग्रेजी के रोमन अक्षरों की सीमाओं के अन्दर ही कार्य करना सरल और सस्ता होता है। इसीलिए कई विद्वान भारतीय भाषाओं का भी लेखन और संसाधन रोमन लिपि में करने के पक्षधर रहे हैं। इनमें श्री मधुकर गोगाते जी का नाम सबसे आगे लिया जा सकता है।
किन्तु इण्टरनेट पर विश्वस्तरीय संचार के लिए युनिकोड कूट ही एकमात्र मानकीकृत बहुभाषी कूट उपलब्ध हैं। बिना युनिकोड का सहारा लिए विश्व की विभिन्न भाषाओं/लिपियों में कुछ भी संचार कर पाना लगभग असम्भव है।
युनिकोड के आविर्भाव के बाद युनिकोड में भारतीय लिपियों के मध्य लिप्यन्तरण के लिए सबसे पहले कार्य किया था आलोक कुमार जी ने। उन्होंने ये सुविधाएँ गिरगिट पर उपलब्ध कराईँ। इसी का एक और वर्सन
यहाँ भी उपलब्ध है। इसके वेबपृष्ठ को सेव्ह करके ऑफ लाइन भी उपयोग किया जा सकता है। तथा पहले से टंकित पाठ को भारतीय लिपियों के मध्य लिप्यन्तरित किया जा सकता है।
किन्तु इस दिशा में सबसे महत्वपूर्ण कार्य किया पीयूष भट्ट जी ने भोमियो पर। इन्होने देवनागरी तथा भारतीय भाषाओं में संसाधित किसी भी समग्र वेबसाइट को भी कुछ क्षणों में ही तत्काल इच्छित लिपि में बदलकर इण्टरनेट पर पाठक को पढ़ पाने की आश्चर्यजनक जादुई सुविधा उपलब्ध कराई है। अनेक हिन्दी तथा अन्य भारतीय भाषाओं के चिट्ठाकारों (ब्लॉग-लेखकों) तथा कई वेबसाइटों पर भोमियो के लिप्यन्तरण उपकरण की कड़ी जोड़ी जा चुकी है। जहाँ पर क्लिक करते ही इच्छित लिपि में वह वेबपृष्ठ बदलकर प्रकट हो जाता है।
हालांकि लिप्यन्तरित पाठ शत-प्रतिशत सही नहीं हो पा रहा है, जिसका कारण युनिकोड में कुछ भाषाओं के अक्षरों के निर्धारण में रह गईं मूलभूत गलतियाँ तथा भाषा-विशेष के लिए कुछ अक्षरों को अभाव हैं।
भोमियो पर भारतीय भाषाओं के पाठ को रोमन लिपि में बदलकर प्रकट करने की सुविधा भी उपलब्ध कराई गई है। इसके द्वारा लिप्यन्तरित रोमन पाठ यथासम्भव सरल तथा प्रचलित रोमन शब्द-धारा में प्रदर्शित होता है। किन्तु इसमें कुछ गलतियाँ/त्रुटियाँ रहना स्वाभाविक है, क्योंकि रोमन लिपि भारतीय भाषाओं के पाठ को शत-प्रतिशत शुद्ध रूप में प्रकट कर पाने में सर्वथा असमर्थ है।
रोमन लिपि में भारतीय भाषाओं/लिपियों के पाठ को लिखने/कम्प्यूटर पर संसाधित करने के लिए अभी तक उपलब्ध अनेक पद्धतियों में आपस में तालमेल (compatibilty) न होने के कारण उपयोगकर्ताओं को काफी समस्याओं का सामना करना पड़ता है। एकरूपता के अभाव में सूचनाओं के संचार में भारी लागत, भारी हानि भी उठानी पड़ती है। अतः इसका भी मानकीकरण (Standardisation) किया जाना आवश्यक है।
अतः एक सबसे उपयुक्त पद्धति को मानकीकृत करने के लिए विभिन्न भारतीय तथा अन्तर्राष्ट्रीय तकनीकी विद्वानों द्वारा काफी प्रयास किए गए हैं। तदनुरूप 2002 में भारत सरकार के सूचना प्रौद्योगिकी मंत्रालय के अधीन "भारतीय भाषाओं के लिए प्रौद्योगिकी विकास" अनुभाग द्वारा ऐसे एक मानक "INSROT" (Indian Script to Roman Transliteration) के मसौदे (Draft) जारी किए गए थे। जिनका विभिन्न लोगों के फीडबैक के बाद परिशोधन भी किया गया है।
सभी विद्वान यदि इसे देखें-परखें और सुधार हेतु अपने सुझाव तथा समर्थन भेजें तो इसका मानकीकरण जल्दी किया जा सकता है।
Itrans, Hitrans, WX, इत्यादि पद्धतियों में Roman Text लिखने में सबसे बड़ी असुविधा होती थी कुछ वर्ण विशेष के लिए बड़े अक्षरों (Capital letters) का प्रयोग किए जाने से। क्योंकि MS Word, Pagemaker तथा अन्य कुछ प्रोग्रामों में यदि select all चयन करके Change Case (All Caps या All Small या First letter Caps) की भी सुविधा होती है, जिसका उपयोग करके यदि Capital/small में बदल दिया जाए तो समग्र पाठ का अर्थ का अनर्थ हो जाता है। और फिर विभिन्न डैटाबेस उपयोगों, इण्टरनेट सर्च इंजिनों, ईमेल-पते आदि में Small/Captial के निर्विशेष से searching, sorting, indexing आदि होती है। अतः ये पद्धतियाँ तकनीकी दृष्टि से उपयुक्त सिद्ध नहीं हुई।
तकनीकी रूप से सही लिप्यन्तरण वही माना जाएगा जो भारतीय लिपि के हर शब्द को हू-ब-हू रोमन में बदले तथा फिर वापस रोमन से भारतीय लिपि में हू-ब-हू बदल सके। इस दौरान कोई बिगड़ाव न हो तथा कोई द्विअर्थी भाव प्रकट न हो। किसी भी दो प्रकार के उच्चारण विभेद या वर्ण विभेद को स्पष्ट प्रकट किया जा सके। इसका ध्यान INSROT में रखा गया है। उदाहरण के लिए
अतः = ata:
अत्ह = ath'a
फ = pha
प्ह = ph'a
के मध्य भी अन्तर स्पष्ट रखने की व्यवस्था है। देवनागरी से रोमन और रोमन से वापस देवनागरी में लिप्यन्तरण करने पर कोई गड़बड़ी नहीं हो, इसका ध्यान रखा गया है। सम्पर्ण पाठ को यदि CAPITAL या SMALL letters में बदल दिया जाए तो भी मूल पाठ परिवर्तित न हो इसका ध्यान रखा गया है।
INSROT को यदि अधिकाधिक विद्वानों/उपयोगकर्ताओं का समर्थन मिले तो इसे शीघ्र मानकीकृत किया जा सकता है, और विश्वस्तर पर भारतीय लिपियों के प्रयोग को एकरूपता मिल सकती है।
अतः सभी विद्वानों, पाठकों, हिन्दी तथा भारतीय भाषाओं के चिट्ठाकारों से अनुरोध है कि कृपया सभी अपने सुझाव दें, आनेवाली व्यावहारिक समस्याओं से अवगत कराते हुए सुझाव दें और अपना समर्थन दें।
भोमियो में यदि प्रायोगिक तौर पर INSROT के मसौदे(Draft) सूत्र अपना कर परीक्षण किया जाए तो अधिकाधिक लोग इसे सरलता से टेस्टिंग करके इसकी practical समस्याएँ, यदि कोई सामने आएँ, से अवगत हो सकेंगे, सूचना दे सकेंगे, फीडबैक दे सकेंगे। अधिकाधिक व्यावहारिक सुझाव मिलने पर उनके समाधान के लिए प्रयास किए जा सकेंगे।
क्योंकि एक बार मानकीकरण हो जाने के बाद उसे बदलना बहुत कठिन (लगभग असम्भव) हो जाता है। यदि बारम्बार सुधार/बदलाव किए जाते रहे तो फिर Stability Policy ही कैसे टिक पाएगी।
12 comments:
आपने ये बहुत ही शोधपरक आलेख लिखा है. जटिल हिन्दी भाषा की समस्याएँ भी वास्तविक जटिल ही है.
आपका यह शोध-पत्र बहुत ही उपयोगी है। सचमुच इस दिशा में मानकीकरण अत्यन्त आवश्यक है, इसे तत्काल आधार पर किया जाना चाहिए। इस मानकीकरण से अनेक समस्याओं का समाधान किया जा सकता है।
बहुत ही अच्छा और शोधपरक लेख लिखा आपने। बधाई!
मैंने INSROT की स्कीम देखी, इसको बहुत मेहनत और शोध से तैयार किया गया है ताकि दोनों भाषाओं मे मध्य लिप्यांतरण में कोई गड़बड़ न हो। बस इस बात की कोशिश की जानी चाहिए कि वह सरलतम बन सके।
इसका मानकीकरण होने से बहुत लाभ होंगे, यदि यह देवनागरी वर्णक्रम को पूरी तरह कूटबद्ध कर सके तो शायद इसको हिन्दी आदि भाषाओं की प्रोसैसिंग के लिए डाटाबेस में बैकएंड पर प्रयोग किया जा सकता है, इस विषय में आपका क्या विचार है?
लिप्यंतरण पर एक जगह इतनी सामग्री एकत्र करके आपने बहुत ही अच्छा काम किया है। साधुवाद!
मुझे लगता है कि INSROT पर थोड़ा और प्रकाश डालने से लेख और परिपूर्ण हो जाता।
आपका शोधपत्र वाकई शोधपत्र है क्युंकी बहोत सारी बातो का आपने उसमे समावेश किया है जो हमे पता भी न था. मै खुद पहेले से हिन्दी या भारतीय भाषाओ को रोमन लिपी में लिखने का विरोधी रहा हुं. लेकिन खामखा विरोध करते रहेना हो तो संसद अच्छी जगह है और मैं वहां हुं नहि.
अंग्रेजीमें भी छँटाई (Sorting), सूचकांकन (Indexing), तथा विशेष डैटाबस प्रबन्धन (Database Management) में अनेक जटिल समस्याएँ थी और उनके प्रयत्नो से वो समस्याए हल हो चुकी है. हरेक भाषा की खुद की समस्या होती है ओर उसे हल करना हि उसकी प्रगति है. कुछ लोग वो हल ना करके अंग्रेजी को ही अपनाना चाहे तो वो उनकी कर्मशून्यता है.
युनिकोड को मे अभीतक तो आशीर्वाद समजता आया हुं. और युनिकोड में शब्दो को डेटाबेझ मे संग्रहित किया गया है तो उसे वो सही क्रमांक मे छँटाई करता है. भोमियो पे अगर उर्दु हिन्दी शब्दावली को देखा जाये तो वहां शब्दो को हिन्दी के क्रमांक मे दिखाया जाता है.
सिर्फ टाइपींग के लिए रोमन-टाइपराईटर से भारतीय भाषा के लिए मेपींग मानक होना चाहीये. लेकिन उसका परिणाम युनिकोड होना चाहिए. युनिकोड परिवर्तित लिखावट मे 'ओल केप्स' या 'स्मोल केप्स' करने से भी कोइ फर्क नहि होता क्युंकी वो सुविधा अंग्रेजी के लिए हि है.
आपके उदाहरण मे मुझे ये सवाल है.
अतः = ata: = OK
अत्ह = atah'a = Why not [at'ha]?
फ = pha = OK
प्ह = ph'a = why not [p'ha]?
पीयूष जी,
आपके द्वारा दर्शाए अनुसार मैंने अत्ह = ath'a सुधार कर दिया है।
अनुनाद जी,
INSROT पर और सामग्री अगले लेख में जारी रहेगी।
श्रीश जी,
डैटाबेस, स्प्रीडशीट आदि एप्लिकेशन्स में INSROT की वर्तमान मैपिंग समस्याएँ प्रकट करती हैं, अगले लेख में इसका विवरण जारी रहेगा।
आपने वाकई सारी समस्याओं का एक ही समाधान खोजने का प्रयास किया है, मुझे तकनीकी ज्ञान तो नहीं है, फिर भी मैं इतना कहना चाहता हूँ कि हिन्दी में ईमेल आसानी से किये जा सके, हिन्दी में पुराने रेमिंगटन या अन्य लोकप्रिय टाईपराईटर से की जा सकने वाली टाईप पद्धति का अन्तरजाल पर प्रयोग आसान हो आम व्यक्ति जिस आसानी के साथ कम्प्यूटर पर अंगे्जी का प्रयोग करता है उसी आसानी से वह हिन्दी का प्रयोग कर सके तभी इन सभी प्रयासों की सार्थकता है।
साथ ही मैं एक बात जोर देकर कहना चाहूँगा कि हमारे कई साथी अलग अलग रूप से एक ही विषय पर अपनी उर्जा खर्च कर रहें हैं, उन्हें एक ही मंच पर अपनी प्रतिभा का उपयोग करना चाहिये।
हिन्दी का भला करने में हमारा ही भला है, इसी मूल उद्धेश्य को लेकर उन्हें चलना चाहिये। एक ही ध्येय हो हिन्दी । सिर्फ हिन्दी और सिर्फ हिन्दी।।
आज भी यूनिकोड पद्धति के भिन्न भिन्न टाईप टूल उपलबब्ध हैं , मैं तो कन्फृयूज हो गया हूँ कि किसे प्रयोग करूँ। सभी में कुछ ना कुछ खामियॉं है। आशा है आप इन सभी बातों का ध्यान रखेंगे।
आभार एवं साधुवाद
ये स्कीम डेटाबेस के लिए तो ठीक है, लेकिन IME में प्रयूक्त होने के लिए उपयुक्त नहीं, क्योंकि टाइपिंग के हिसाब से स्कीम काफी मुश्किल है। आपका क्या कहना है?
श्रीश जी,
ये स्कीम डैटाबेस के लिए बिल्कुल भी अनुकूल नहीं है। डैटाबेस के लिए एक 'वर्ण' के लिए एक 'alphabet' ही अनुकूल होता है। नहीं तो sorting, indexing असम्भव होगा।
यह IME अर्थात् ऑनलाइन प्रविष्टि/संसाधन के लिए भी कतई अनुकूल नहीं है।
यह सिर्फ Offline Indic text/data entry/storing in Roman के लिए अनुकूल है। ताकि जिन कम्प्यूटरों में न तो हिन्दी सॉफ्टवेयर हैं, न ही 8बिट फोंट्स, न ही युनिकोड सुविधा, वहाँ वे इस प्रकार अंग्रेजी(रोमन) में लिखकर काम चलाएँ और फिर बाद में कनवर्ट करें।
"यह सिर्फ Offline Indic text/data entry/storing in Roman के लिए अनुकूल है। ताकि जिन कम्प्यूटरों में न तो हिन्दी सॉफ्टवेयर हैं, न ही 8बिट फोंट्स, न ही युनिकोड सुविधा, वहाँ वे इस प्रकार अंग्रेजी(रोमन) में लिखकर काम चलाएँ और फिर बाद में कनवर्ट करें।"
मेरे ख्याल से कामचलाऊ हिन्दी समर्थन तो सभी सिस्टमों में हो सकता है। फिर इस चीज पर मेहनत करने से क्या फायदा, इसका क्या खास उपयोग हो सकता है?
श्रीश जी, आपने बिल्कुल वाजिब प्रश्न पूछा है-- इसकी आवश्यकता सम्बन्धी जानकारी इस आलेख के भाग-2 में दी जा रही है।
Post a Comment