20-Aug-2007

रोमन लिप्यन्तरण हेतु मानकों का निर्धारण भाग-2

रोमन लिप्यन्तरण हेतु मानकों का निर्धारण भाग-2
Indic Scripts Roman Transliteration Standardisation2

भारतीय लिपियों के पाठ को "रोमन लिपि में लिप्यन्तरण हेतु मानक-निर्धारण" विषय पर मेरे पूर्व आलेख पर श्रीशजी ने तथा पीयूष जी ने एवं अनुनाद जी ने कुछ महत्त्वपूर्ण एवं उपयोगी प्रश्न उठाए हैं, जिनके जबाब निम्नवत् प्रस्तुत हैं:

प्रश्न : क्या यह रोमन लिप्यन्तरण स्कीम हिन्दी तथा भारतीय भाषाओं के डैटाबेस प्रबन्धन कार्यों के लिए अनुकूल है?

उत्तर : बिल्कुल नहीं। क्योंकि डैटाबेस के लिए हरेक फील्ड का आकार (field size) निर्धारण आवश्यक होता है, जिसके लिए वर्ण-गणना (character count) हेतु हरेक वर्ण के लिए एक alphabet ही होना जरूरी एवं सुविधाजनक है। इसमें चूँकि एक वर्ण के लिए एकाधिक वर्ण (alphabet) को लिया गया है, अतः aphabetical sorting, indexing, processing आदि भी अत्यन्त कठिन व लगभग असम्भव हो जाते हैं।

प्रश्न : क्या यह हिन्दी (एवं अन्य भारतीय भाषाओं) के लिए सबसे अच्छी पाठ प्रविष्टि प्रणाली (Input Method) हो सकती है?

उत्तर : जी नहीं, एक वर्ण के लिए एक ही कुञ्जी (key-stroke) दबाना पड़े तभी कीबोर्ड पर इनपुट सहज होता है। इसमें एक वर्ण के लिए एकाधिक कुञ्जियों का प्रयोग करना पड़ता है।

प्रश्न : वर्तमान हिन्दी(देवनागरी) युनिकोड में वर्णक्रमानुसार छँटाई (alphabetical sorting) करना सम्भव तो हो ही रहा है, इसमें क्या कमियाँ हैं?

उत्तर : वर्तमान हिन्दी (तथा अन्य भारतीय भाषाओं) के युनिकोड मानक आक्षरिक (Syllablic) पद्धति पर आधारित हैं, वर्णात्मक (Alphabetical) पद्धति पर नहीं। जिसके कारण शुद्ध छँटाई (Sorting) मौलिक (default) रूप से उपलब्ध होना असम्भव है। देवनागरी वर्णों/चिह्नों/अक्षरों का कूट-निर्धारण भी सही क्रम में नहीं किया गया है। इसके लिए युनिकोड के प्राधिकारी स्पष्ट करते हैं कि sorting या collation युनिकोड कूट-निर्धारण के कार्यक्षेत्र की सीमा से बाहर की बात है। इसके लिए अलग से रुटीन बनाए जाने चाहिए। देवनागरी में युनिकोड में छँटाई (collation chart) के लिए अलग चार्ट का उल्लेख किया गया हैं। किन्तु syllablic approach तथा चन्द्रबिन्दु, अनुस्वार तथा विसर्ग का क्रम निर्धारण न हो पाने के कारण ये हिन्दी शब्दकोश, हिन्दी से अंग्रेजी शब्दकोश, सन्धि, सन्धि-विच्छेद, समास, वाइल्डकैड (WildCad) प्रयोग, प्राकृतिक भाषा संसाधन (NLP) आदि के क्षेत्र में विकराल समस्या खड़ी कर देते हैं। इस विषय पर उदाहरण सहित अलग तकनीकी आलेखों में स्पष्ट किया जाएगा।

प्रश्न : अब हिन्दी (देवनागरी) में कम्प्यूटर में पाठ प्रविष्टि (Entry, Input) तथा संसाधन के लिए 8-बिट फोंट प्रणाली, तथा अन्तर्राष्ट्रीय मानकीकृत 16-बिट युनिकोड प्रणाली उपलब्ध है, वेबपृष्ठों पर भी हिन्दी तथा भारतीय भाषाओं में भारी परिमाण में सामग्री प्रकाशित होने लगी है, फिर इस "रोमन ट्रासलिटरेशन योजना के मानकीकरण की क्या आवश्यकता है?"

उत्तर :

यह सत्य स्वीकार करना ही होगा कि विश्व की 600 अरब जनसंख्या में से अंग्रेजी(रोमन) के प्रयोगकर्ता लगभग 300 अरब से अधिक ही होंगे, जबकि हिन्दी (देवनागरी) लिपि में लिखने/टाइप-करनेवालों की संख्या 0.001 प्रतिशत भी नहीं होगा। इस लिपि का असली नाम लेटिन (Latin) है। युनिकोड में लिपि का असली नामकरण एवं बेसिक लेटिन (Basic Latin) हुआ है, जो पूर्व ASCII (Amecian Standard for Information Interchange) की ही प्रतिछवि या प्रतिरूप है। कम्प्यूटर के मूल संचालन कमाण्ड कूट (Controlling Commands) इस कोड-सेट के आरम्भिक 32 स्थानों में विराजमान हैं। अतः इसके बिना कम्प्यूटिंग के बारे में सोचा भी नहीं जा सकता।

रोमन/लेटिन ध्वनि-विज्ञान की दृष्टि से चाहे जितनी दुरुह और बेतुकी क्यों न हो, परन्तु तकनीकी रूप से सबसे सहज लिपि यही है। एक समान स्थिर चौड़ाई वाले (FixWidth), स्वतन्त्र व किसी पर न चढ़ने वाले (non-overlaping) अक्षरों, तथा सरल बायें से दायें (Left to Right) क्रम में लिखी जाने आदि तकनीकी सरलताओं के कारण यह टाइपराइटरों, मैनुअल तथा इलेक्ट्रॉनिक केलकुलेटरों, प्राचीन छापाखानों से लेकर कम्प्यूटर के मौलिक संसाधान के सर्वाधिक अनुकूल रही है। कम्प्यूटर का बायोस (Bios) तथा सीस्टम् कर्नेल तथा समस्त प्रोग्रामिंग इसी पर आधारित होते हैं।

लेटिन/रोमन को संस्कृत, हिन्दी तथा अन्य भारतीय भाषाओं/लिपियों, यूरोपीय, अमेरिकी तथा विश्व की भाषाओं/लिपियों के विविध उच्चारणों को प्रकट करने के लिए अनुकूल बनाने के लिए अनेक वर्षों से शोध एवं अनुसन्धान होते रहे हैं, अनेकानेक संयुक्ताक्षरों, लिगाचर्स (Ligatures) का आविष्कार तथा प्रचलन हुआ है। अब तक युनिकोड 5.0 में निम्नलिखित 11 श्रेणियों में इसके विभिन्न वर्णों के कूट-निर्धारण तथा मानकीकरण हो चुका है:--

Basic Latin
Latin-1
Latin Extended A
Latin Extended B
Latin Extended C
Latin Extended D
Latin Extended Additional
Latin Ligatures
Fullwidth Latin Letters
Small Forms
(see also Phonetic Symbols)

किन्तु विश्वभर में अधिकांश लेखन, प्रकाशन, पठन-पाठन मूल लेटिन (Basic Latin) में ही होता रहा है। इसके परिवर्धित (Extended) वर्णों के बारे में विशिष्ट लोगों को ही जानकारी होती है तथा आम लोग उन्हें समझ नहीं पाते।

भले ही विश्व में रोमन/लेटिन के उपयोगकर्ता आधे से अधिक हों, संस्कृत, हिन्दी तथा अन्यान्य भारतीय भाषाओं के पाठ(text) ही नहीं, विश्व की विभिन्न भाषाओं/लिपियों के विविध साहित्य का का उद्धरण देते एवं उल्लेख करने के लिए भी लेखन/टंकण हेतु बेसिक रोमन/लेटिन का ही प्रयोग किया जाता रहा है।

हिन्दी(देवनागरी- विशेषकर संस्कृत ) तथा ब्राह्मी आधारित भाषाओं/लिपियों, के वर्णों, शब्दों, वाक्याशों, वाक्यों, पदों, श्लोकों, काव्यों को लिखने/टंकित करने या कुछ न कुछ मात्रा में कहीं न कहीं उल्लेख करने की आवश्यकता विश्व के लगभग 100 अरब लोगों को तो पड़ती ही है। इसके लिए वे अपने अंग्रेजी-भाषा में प्रस्तुत आलेखों में रोमन/लेटिन लिपि में प्रचलित विभिन्न पद्धतियों का सहारा लेते रहे हैं-- चाहे वह ITrans हो, Hitrans हो, ISCII-RT हो, या Extended ASCII हो, Velthius हो, Harvard-Kyoto हो, या csxplus हो या अन्य पद्धतियाँ। इन सबके बीच कोई तालमेल नहीं है। हरेक पद्धति कुछ अलग-अलग है। और सभी में कुछ न कुछ खामियाँ हैं। IPA (Internation Phonetic Alphabet) भी भारतीय लिपियों के पाठ को पूर्णतः सही रीति लिपिबद्ध करने में समर्थ नहीं हैं। अतः उपलब्ध पद्धतियो के अच्छे गुणों को समेकित कर "सरल मूल रोमन लिपि में भारतीय भाषाओं/लिपियों" के पाठ का यथासम्भव सठीक लिखन-पठन की अनुकूलता के साथ एक पद्धति का "मानकीकरण" नितान्त आवश्यक है।

इण्टरनेट पर तलाश करने पर हम पाते हैं कि अभी तक संस्कृत, हिन्दी तथा अन्य भारतीय भाषाओं का 95% ज्ञान-भण्डार/साहित्य/काव्य/तकनीक रोमन लिपि में ऐसी विभिन्न पद्धतियों में वर्षों की तपस्या से सुरक्षित कर संजोया गया है, तथा लम्बे समय तक भविष्य में भी ऐसा ही होता रहेगा।

यह कटु सत्य है कि International Compatibility या विश्वभर के लोगों को सरलता से अपने विचार तत्काल समझाने/सम्प्रेषित करने के लिए Roman/Latin लिपि के अलावा फिलहाल और कोई तुलनीय विकल्प नहीं है।

युनिकोड के प्रचलन के दशक-भर के बाद भी अभी तक 500 चिट्ठाकार एवं लगभग 5000 उपयोगकर्त्ता ही हिन्दी देवनागरी का उपयोग कर रहे हैं, तो विश्वभर के लोगों को सीखने/सिखाने में कितनी सदियाँ लगेंगी? तबतक क्या विश्वभर को भारतीय लिपियों के शब्दों का उल्लेख करने से रोक सकेगा कोई?

क्या आपको तमिल या कन्नड़ या हिब्रू या अरबी लिपि मालूम है? यदि कोई व्यक्ति अपना नाम भी इन लिपियों में लिखकर आपको दे तो क्या आप उसे पढ़ पाएँगे? यदि वह रोमन में लिखकर दे तो संसार का कोई भी व्यक्ति पढ़ ही लेगा। इसी प्रकार यदि आप देवनागरी लिपि में अपने तकनीकी लेख अपने चिट्ठे पर लिखते हैं। कई लोगों ने कविताएँ, श्लोक, गीत भी चिट्ठे पर लिखे हैं। यदि अफ्रीका, स्पेन, कोरिया आदि का कई व्यक्ति इन्हें पढ़ना चाहे, जिसे देवनागरी लिपि न मालूम हो तो वह कैसे पढ़ पाएगा? इसलिए भोमियो पर पीयूष जी द्वारा प्रदान की गई Roman- x-literation सेवा एक महान योगदान है, जिससे कम से कम संसार का हर व्यक्ति भारतीय लिपियों में किसी वेबसाइट पर लिखे गए पाठ को रोमन लिपि में ही सही तत्काल बदलकर पढ़-समझ तो सकता है। मेरे विचार में इसके लिए पीयूष जी को नोबल पुरस्कार नहीं तो कम से कोई न कोई अन्तर्राष्ट्रीय पुरस्कार अवश्य दिया जाना चाहिए।

अतः अन्तर्राष्ट्रीय स्तर पर "भारतीय भाषाओं के पाठ को रोमन लिपि में लिखने-पढ़ने" में एकरूपता हेतु एक मानक का निर्धारण किया जाना आवश्यक है।

हालांकि वर्तमान प्रस्तावित रोमन लिप्यन्तरण योजना भी त्रुटियों/समस्याओं से मुक्त नहीं है, किन्तु इस का अन्तर्राष्ट्रीय स्तर पर व्यावहारिक प्रयोग/टेस्टिंग करके कुछ न कुछ सर्वानुकूल समाधान अवश्य निकाले जाने चाहिए।

उदाहरण के लिए:

क्या आपको तमिल या कन्नड़ या हिब्रू या अरबी लिपि मालूम है? यदि कोई व्यक्ति अपना नाम भी इन लिपियों में लिखकर आपको दे तो क्या आप उसे पढ़ पाएँगे? यदि वह रोमन में लिखकर दे तो संसार का कोई भी व्यक्ति पढ़ ही लेगा।

इसी प्रकार यदि आप हिन्दी(देवनागरी) में अपने लेख, कविताएँ, श्लोक, गीत अपने चिट्ठे पर प्रकाशित करते हैं, यदि अफ्रीका, स्पेन, कोरिया आदि का कई व्यक्ति इन्हें पढ़ना चाहे, जिसे देवनागरी लिपि न मालूम हो तो वह कैसे पढ़ पाएगा?

इसलिए भोमियो पर पीयूष जी द्वारा प्रदान की गई Roman- x-literation सेवा एक महान योगदान है, जिससे कम से कम संसार का हर व्यक्ति भारतीय लिपियों में किसी वेबसाइट पर लिखे गए पाठ को रोमन लिपि में ही सही तत्काल बदलकर पढ़-समझ तो सकता है। मेरे विचार में इसके लिए पीयूष जी को नोबल पुरस्कार नहीं तो कम से कोई न कोई अन्तर्राष्ट्रीय पुरस्कार अवश्य दिया जाना चाहिए। हालांकि उनकी इस योजना में अभी काफी कुछ लिपिवार विशेष सुधार की जरूरत है।

हालांकि वर्तमान प्रस्तावित रोमन लिप्यन्तरण योजना भी त्रुटियों/समस्याओं से मुक्त नहीं है, किन्तु इस का अन्तर्राष्ट्रीय स्तर पर व्यावहारिक प्रयोग/टेस्टिंग होने पर ही कुछ न कुछ सर्वानुकूल समाधान निकल सकते हैं। मानकीकरण अनेक फीडबैक तथा व्यावहारिक प्रयोगों के बाद ही किया जाना चाहिए, ताकि यथासम्भव त्रुटिहीन और टिकाऊ हो।

(जारी...)

3 comments:

उन्मुक्त said...

इसमें कोई शक नहीं कि भोमियो पर पीयूष जी द्वारा प्रदान की गई Roman- x-literation सेवा एक महान योगदान है। वे उसके लिये बधाई के पात्र हैं।

Shrish said...

देवनागरी के लिए पहले से ही काफी लिप्यांतरण स्कीमें हैं, यदि इसको रोमन में लिखने के लिए मानक प्रणाली बने तो अच्छा ही होगा।

पीयूष जी मेरा भी अनुरोध है कि यह सुविधा उपलब्ध करवा दें। मेरे विचार से यह बहुत मुश्किल न होगा, क्योंकि सारा सिस्टम तो पहले से बना ही है, बस एक और स्कीम जोड़नी है।

peekay said...

wonderful coverage and a lot of hard work .. will revert for comments later .. when i have become better at typing hindi in hindi