प्रगत भारत: August 2007

23 Aug 2007

सावधान! परोक्ष धूमपान अधिक खतरनाक

Indirect Smoking is more dangerous

कई घटनाओं में देखा गया है कि जो व्यक्ति धूमपान का आदी है, उसे तो कुछ रोग नहीं होता, लेकिन उसकी पत्नी को कैन्सर हो जाता है। उसके आसपास रहने, उठने, बैठनेवालों को गम्भीर बीमारियाँ हो जाती हैं।

इसका कारण बताते हुए चिकित्सा वैज्ञानिकों ने बताया है कि जो व्यक्ति धूमपान करता है वह बीड़ी/सिगरेट/सिगार आदि में तम्बाकू के जलने पर उत्पन्न धुएँ में निकोटिन+ऑक्सीजन ही अपनी साँस से फेंफड़ों में भरता है। किन्तु वह जो धुँआ उगलता है, उसमें निकोटिन+कार्बन-डाई-ऑक्साइड होता है जो ज्यादा खतरनाक होता है, जो उसके आसपास रहनेवाले व्यक्तियों के फेंफड़ों, श्वसन नली, तथा पेट में जाकर अनेक गम्भीर बीमारियाँ पैद करता है। अतः इस प्रकार परोक्ष (indirect) धूमपान ज्यादा खतरनाक होता है।

धूमपान के आदी व्यक्ति में तो निकोटीन को हजम करने या सहन करने की शक्ति आ जाती है। किन्तु धूमपान न करनेवाले व्यक्तियों में उस धूम को अनचाहे ग्रहण करने पर असह्य वेदना होती है। जो शारीरिक अवयवों पर ही नहीं, बल्कि मानसिक तथा मस्तिष्क की ग्रन्थियों पर खतरनाक स्तर का प्रभाव डालती है।

देखा जाता है कि किसी कार्यालय में, एयरकण्डीशण्ड कमरे में, सार्वजनिक स्थल पर धूमपान करनेवाले व्यक्ति को लोग रोकने या मना करने का साहस नहीं करते और अनचाहे ही भारी मात्रा में जहर अपने अन्दर सोखते रहते हैं।

सावधान! यह आपके जीवन का प्रश्न है: अतः ऐसे धूमपान-कारियों को तत्काल रोकने का आपका जन्मसिद्ध अधिकार है। सार्वजनिक स्थलों पर, रेलगाड़ी में, कार्यालयों में धूमपान करने पर भारतीय दण्डविधान की कई धाराओं के अन्तर्गत मामले दायर किए जा सकते हैं। उन्हें पुलिस द्वारा पकड़वाया जा सकता है। अतः ऐसे लोगों पर तत्काल कार्यवाही आवश्यक है।

पर्यावरण-संरक्षण संस्थाओं द्वारा मांग की जाने लगी है कि जिस प्रकार मयखाने, मधुशालाएँ, बीयर-बार. डान्स-बार आदि होती हैं, उसी प्रकार विभिन्न बाजारों में, रेलगाड़ियों, हवाई-अड्डों पर धूमपान के लिए भी विशेष कक्ष में धूमपान-बार (Smoke Bar) खोली जानी चाहिए। ऐसे कक्ष बन्द होने चाहिए। ताकि उनका धूम बेकार बाहर निकल कर नष्ट न होने पाए और अधिक समय तक कक्ष में ही मौजूद रहे। ताकि जिस धूमपान के आदी व्यक्ति के पास यदि सिगरेट आदि खरीदने के पैसे नहीं हो तो वह भी मुफ्त में उस कक्ष कुछ समय रुककर वहाँ मौजूद धूम को ग्रहण करके पर्याप्त आनन्द प्राप्त कर सके। कई बाजारों में ऐसे Smoke Bar खुल भी गए हैं।

इसलिए पर्यावरण सुरक्षा तथा आम जनता के स्वास्थ्य की सुरक्षा के लिए निविदेन है कि ऐसे स्मोक बार अधिकाधिक स्थलों में खुलवाने हेतु सभी अपना यथासम्भव जोर लगाएँ।

इसी सन्दर्भ में एक श्लोगान/नारा निम्नवत् है:

पान खाओ तो मीठा पान खाओ, पीक निगल लो,

आपको जहाँ तहाँ, थूकने का कोई अधिकार नहीं।

बीड़ी, सिगरेट पीओ शौक से, पर धुआँ निगल डालो,

जहाँ-तहाँ जहर उगलने का तुम्हें कोई अधिकार नहीं॥

(सबसे बड़ा पाप - वायु प्रदूषण से)

20 Aug 2007

रोमन लिप्यन्तरण हेतु मानकों का निर्धारण भाग-2

रोमन लिप्यन्तरण हेतु मानकों का निर्धारण भाग-2
Indic Scripts Roman Transliteration Standardisation2

भारतीय लिपियों के पाठ को "रोमन लिपि में लिप्यन्तरण हेतु मानक-निर्धारण" विषय पर मेरे पूर्व आलेख पर श्रीशजी ने तथा पीयूष जी ने एवं अनुनाद जी ने कुछ महत्त्वपूर्ण एवं उपयोगी प्रश्न उठाए हैं, जिनके जबाब निम्नवत् प्रस्तुत हैं:

प्रश्न : क्या यह रोमन लिप्यन्तरण स्कीम हिन्दी तथा भारतीय भाषाओं के डैटाबेस प्रबन्धन कार्यों के लिए अनुकूल है?

उत्तर : बिल्कुल नहीं। क्योंकि डैटाबेस के लिए हरेक फील्ड का आकार (field size) निर्धारण आवश्यक होता है, जिसके लिए वर्ण-गणना (character count) हेतु हरेक वर्ण के लिए एक alphabet ही होना जरूरी एवं सुविधाजनक है। इसमें चूँकि एक वर्ण के लिए एकाधिक वर्ण (alphabet) को लिया गया है, अतः aphabetical sorting, indexing, processing आदि भी अत्यन्त कठिन व लगभग असम्भव हो जाते हैं।

प्रश्न : क्या यह हिन्दी (एवं अन्य भारतीय भाषाओं) के लिए सबसे अच्छी पाठ प्रविष्टि प्रणाली (Input Method) हो सकती है?

उत्तर : जी नहीं, एक वर्ण के लिए एक ही कुञ्जी (key-stroke) दबाना पड़े तभी कीबोर्ड पर इनपुट सहज होता है। इसमें एक वर्ण के लिए एकाधिक कुञ्जियों का प्रयोग करना पड़ता है।

प्रश्न : वर्तमान हिन्दी(देवनागरी) युनिकोड में वर्णक्रमानुसार छँटाई (alphabetical sorting) करना सम्भव तो हो ही रहा है, इसमें क्या कमियाँ हैं?

उत्तर : वर्तमान हिन्दी (तथा अन्य भारतीय भाषाओं) के युनिकोड मानक आक्षरिक (Syllablic) पद्धति पर आधारित हैं, वर्णात्मक (Alphabetical) पद्धति पर नहीं। जिसके कारण शुद्ध छँटाई (Sorting) मौलिक (default) रूप से उपलब्ध होना असम्भव है। देवनागरी वर्णों/चिह्नों/अक्षरों का कूट-निर्धारण भी सही क्रम में नहीं किया गया है। इसके लिए युनिकोड के प्राधिकारी स्पष्ट करते हैं कि sorting या collation युनिकोड कूट-निर्धारण के कार्यक्षेत्र की सीमा से बाहर की बात है। इसके लिए अलग से रुटीन बनाए जाने चाहिए। देवनागरी में युनिकोड में छँटाई (collation chart) के लिए अलग चार्ट का उल्लेख किया गया हैं। किन्तु syllablic approach तथा चन्द्रबिन्दु, अनुस्वार तथा विसर्ग का क्रम निर्धारण न हो पाने के कारण ये हिन्दी शब्दकोश, हिन्दी से अंग्रेजी शब्दकोश, सन्धि, सन्धि-विच्छेद, समास, वाइल्डकैड (WildCad) प्रयोग, प्राकृतिक भाषा संसाधन (NLP) आदि के क्षेत्र में विकराल समस्या खड़ी कर देते हैं। इस विषय पर उदाहरण सहित अलग तकनीकी आलेखों में स्पष्ट किया जाएगा।

प्रश्न : अब हिन्दी (देवनागरी) में कम्प्यूटर में पाठ प्रविष्टि (Entry, Input) तथा संसाधन के लिए 8-बिट फोंट प्रणाली, तथा अन्तर्राष्ट्रीय मानकीकृत 16-बिट युनिकोड प्रणाली उपलब्ध है, वेबपृष्ठों पर भी हिन्दी तथा भारतीय भाषाओं में भारी परिमाण में सामग्री प्रकाशित होने लगी है, फिर इस "रोमन ट्रासलिटरेशन योजना के मानकीकरण की क्या आवश्यकता है?"

उत्तर :

यह सत्य स्वीकार करना ही होगा कि विश्व की 600 अरब जनसंख्या में से अंग्रेजी(रोमन) के प्रयोगकर्ता लगभग 300 अरब से अधिक ही होंगे, जबकि हिन्दी (देवनागरी) लिपि में लिखने/टाइप-करनेवालों की संख्या 0.001 प्रतिशत भी नहीं होगा। इस लिपि का असली नाम लेटिन (Latin) है। युनिकोड में लिपि का असली नामकरण एवं बेसिक लेटिन (Basic Latin) हुआ है, जो पूर्व ASCII (Amecian Standard for Information Interchange) की ही प्रतिछवि या प्रतिरूप है। कम्प्यूटर के मूल संचालन कमाण्ड कूट (Controlling Commands) इस कोड-सेट के आरम्भिक 32 स्थानों में विराजमान हैं। अतः इसके बिना कम्प्यूटिंग के बारे में सोचा भी नहीं जा सकता।

रोमन/लेटिन ध्वनि-विज्ञान की दृष्टि से चाहे जितनी दुरुह और बेतुकी क्यों न हो, परन्तु तकनीकी रूप से सबसे सहज लिपि यही है। एक समान स्थिर चौड़ाई वाले (FixWidth), स्वतन्त्र व किसी पर न चढ़ने वाले (non-overlaping) अक्षरों, तथा सरल बायें से दायें (Left to Right) क्रम में लिखी जाने आदि तकनीकी सरलताओं के कारण यह टाइपराइटरों, मैनुअल तथा इलेक्ट्रॉनिक केलकुलेटरों, प्राचीन छापाखानों से लेकर कम्प्यूटर के मौलिक संसाधान के सर्वाधिक अनुकूल रही है। कम्प्यूटर का बायोस (Bios) तथा सीस्टम् कर्नेल तथा समस्त प्रोग्रामिंग इसी पर आधारित होते हैं।

लेटिन/रोमन को संस्कृत, हिन्दी तथा अन्य भारतीय भाषाओं/लिपियों, यूरोपीय, अमेरिकी तथा विश्व की भाषाओं/लिपियों के विविध उच्चारणों को प्रकट करने के लिए अनुकूल बनाने के लिए अनेक वर्षों से शोध एवं अनुसन्धान होते रहे हैं, अनेकानेक संयुक्ताक्षरों, लिगाचर्स (Ligatures) का आविष्कार तथा प्रचलन हुआ है। अब तक युनिकोड 5.0 में निम्नलिखित 11 श्रेणियों में इसके विभिन्न वर्णों के कूट-निर्धारण तथा मानकीकरण हो चुका है:--

Basic Latin
Latin-1
Latin Extended A
Latin Extended B
Latin Extended C
Latin Extended D
Latin Extended Additional
Latin Ligatures
Fullwidth Latin Letters
Small Forms
(see also Phonetic Symbols)

किन्तु विश्वभर में अधिकांश लेखन, प्रकाशन, पठन-पाठन मूल लेटिन (Basic Latin) में ही होता रहा है। इसके परिवर्धित (Extended) वर्णों के बारे में विशिष्ट लोगों को ही जानकारी होती है तथा आम लोग उन्हें समझ नहीं पाते।

भले ही विश्व में रोमन/लेटिन के उपयोगकर्ता आधे से अधिक हों, संस्कृत, हिन्दी तथा अन्यान्य भारतीय भाषाओं के पाठ(text) ही नहीं, विश्व की विभिन्न भाषाओं/लिपियों के विविध साहित्य का का उद्धरण देते एवं उल्लेख करने के लिए भी लेखन/टंकण हेतु बेसिक रोमन/लेटिन का ही प्रयोग किया जाता रहा है।

हिन्दी(देवनागरी- विशेषकर संस्कृत ) तथा ब्राह्मी आधारित भाषाओं/लिपियों, के वर्णों, शब्दों, वाक्याशों, वाक्यों, पदों, श्लोकों, काव्यों को लिखने/टंकित करने या कुछ न कुछ मात्रा में कहीं न कहीं उल्लेख करने की आवश्यकता विश्व के लगभग 100 अरब लोगों को तो पड़ती ही है। इसके लिए वे अपने अंग्रेजी-भाषा में प्रस्तुत आलेखों में रोमन/लेटिन लिपि में प्रचलित विभिन्न पद्धतियों का सहारा लेते रहे हैं-- चाहे वह ITrans हो, Hitrans हो, ISCII-RT हो, या Extended ASCII हो, Velthius हो, Harvard-Kyoto हो, या csxplus हो या अन्य पद्धतियाँ। इन सबके बीच कोई तालमेल नहीं है। हरेक पद्धति कुछ अलग-अलग है। और सभी में कुछ न कुछ खामियाँ हैं। IPA (Internation Phonetic Alphabet) भी भारतीय लिपियों के पाठ को पूर्णतः सही रीति लिपिबद्ध करने में समर्थ नहीं हैं। अतः उपलब्ध पद्धतियो के अच्छे गुणों को समेकित कर "सरल मूल रोमन लिपि में भारतीय भाषाओं/लिपियों" के पाठ का यथासम्भव सठीक लिखन-पठन की अनुकूलता के साथ एक पद्धति का "मानकीकरण" नितान्त आवश्यक है।

इण्टरनेट पर तलाश करने पर हम पाते हैं कि अभी तक संस्कृत, हिन्दी तथा अन्य भारतीय भाषाओं का 95% ज्ञान-भण्डार/साहित्य/काव्य/तकनीक रोमन लिपि में ऐसी विभिन्न पद्धतियों में वर्षों की तपस्या से सुरक्षित कर संजोया गया है, तथा लम्बे समय तक भविष्य में भी ऐसा ही होता रहेगा।

यह कटु सत्य है कि International Compatibility या विश्वभर के लोगों को सरलता से अपने विचार तत्काल समझाने/सम्प्रेषित करने के लिए Roman/Latin लिपि के अलावा फिलहाल और कोई तुलनीय विकल्प नहीं है।

युनिकोड के प्रचलन के दशक-भर के बाद भी अभी तक 500 चिट्ठाकार एवं लगभग 5000 उपयोगकर्त्ता ही हिन्दी देवनागरी का उपयोग कर रहे हैं, तो विश्वभर के लोगों को सीखने/सिखाने में कितनी सदियाँ लगेंगी? तबतक क्या विश्वभर को भारतीय लिपियों के शब्दों का उल्लेख करने से रोक सकेगा कोई?

क्या आपको तमिल या कन्नड़ या हिब्रू या अरबी लिपि मालूम है? यदि कोई व्यक्ति अपना नाम भी इन लिपियों में लिखकर आपको दे तो क्या आप उसे पढ़ पाएँगे? यदि वह रोमन में लिखकर दे तो संसार का कोई भी व्यक्ति पढ़ ही लेगा। इसी प्रकार यदि आप देवनागरी लिपि में अपने तकनीकी लेख अपने चिट्ठे पर लिखते हैं। कई लोगों ने कविताएँ, श्लोक, गीत भी चिट्ठे पर लिखे हैं। यदि अफ्रीका, स्पेन, कोरिया आदि का कई व्यक्ति इन्हें पढ़ना चाहे, जिसे देवनागरी लिपि न मालूम हो तो वह कैसे पढ़ पाएगा? इसलिए भोमियो पर पीयूष जी द्वारा प्रदान की गई Roman- x-literation सेवा एक महान योगदान है, जिससे कम से कम संसार का हर व्यक्ति भारतीय लिपियों में किसी वेबसाइट पर लिखे गए पाठ को रोमन लिपि में ही सही तत्काल बदलकर पढ़-समझ तो सकता है। मेरे विचार में इसके लिए पीयूष जी को नोबल पुरस्कार नहीं तो कम से कोई न कोई अन्तर्राष्ट्रीय पुरस्कार अवश्य दिया जाना चाहिए।

अतः अन्तर्राष्ट्रीय स्तर पर "भारतीय भाषाओं के पाठ को रोमन लिपि में लिखने-पढ़ने" में एकरूपता हेतु एक मानक का निर्धारण किया जाना आवश्यक है।

हालांकि वर्तमान प्रस्तावित रोमन लिप्यन्तरण योजना भी त्रुटियों/समस्याओं से मुक्त नहीं है, किन्तु इस का अन्तर्राष्ट्रीय स्तर पर व्यावहारिक प्रयोग/टेस्टिंग करके कुछ न कुछ सर्वानुकूल समाधान अवश्य निकाले जाने चाहिए।

उदाहरण के लिए:

क्या आपको तमिल या कन्नड़ या हिब्रू या अरबी लिपि मालूम है? यदि कोई व्यक्ति अपना नाम भी इन लिपियों में लिखकर आपको दे तो क्या आप उसे पढ़ पाएँगे? यदि वह रोमन में लिखकर दे तो संसार का कोई भी व्यक्ति पढ़ ही लेगा।

इसी प्रकार यदि आप हिन्दी(देवनागरी) में अपने लेख, कविताएँ, श्लोक, गीत अपने चिट्ठे पर प्रकाशित करते हैं, यदि अफ्रीका, स्पेन, कोरिया आदि का कई व्यक्ति इन्हें पढ़ना चाहे, जिसे देवनागरी लिपि न मालूम हो तो वह कैसे पढ़ पाएगा?

इसलिए भोमियो पर पीयूष जी द्वारा प्रदान की गई Roman- x-literation सेवा एक महान योगदान है, जिससे कम से कम संसार का हर व्यक्ति भारतीय लिपियों में किसी वेबसाइट पर लिखे गए पाठ को रोमन लिपि में ही सही तत्काल बदलकर पढ़-समझ तो सकता है। मेरे विचार में इसके लिए पीयूष जी को नोबल पुरस्कार नहीं तो कम से कोई न कोई अन्तर्राष्ट्रीय पुरस्कार अवश्य दिया जाना चाहिए। हालांकि उनकी इस योजना में अभी काफी कुछ लिपिवार विशेष सुधार की जरूरत है।

हालांकि वर्तमान प्रस्तावित रोमन लिप्यन्तरण योजना भी त्रुटियों/समस्याओं से मुक्त नहीं है, किन्तु इस का अन्तर्राष्ट्रीय स्तर पर व्यावहारिक प्रयोग/टेस्टिंग होने पर ही कुछ न कुछ सर्वानुकूल समाधान निकल सकते हैं। मानकीकरण अनेक फीडबैक तथा व्यावहारिक प्रयोगों के बाद ही किया जाना चाहिए, ताकि यथासम्भव त्रुटिहीन और टिकाऊ हो।

(जारी...)

18 Aug 2007

लड़का या लड़की मनचाही सन्तान प्राप्ति का सहज उपाय

लड़का या लड़की मनचाही सन्तान प्राप्ति का सहज उपाय
Vedic way for Male Female childbirth

पीएनएन में मीनाक्षी अरोड़ा जी ने "जेंटर मेंटर किट: बेटी तुम्हें मारने का एक और नया तरीका" नामक लेख में कन्या भ्रूण हत्या के मामलों का कटु-सत्य प्रकाशित किया है। देश भर में कन्या भ्रूण-हत्याओं के मामलों के हृदय-विदारक समाचार मिलते रहते हैं। हाल ही में उड़ीसा के नयागढ़ के एक प्राईवेट नर्सिंग होम के सेफ्टी टैंक से अनेक भ्रूण पाए जाने की घटना के बाद तो समग्र भारत दहल गया है। क्या माता-पिता "कंस" बन गए हैं? क्या यह कार्य करनेवाले डॉक्टर "यमराज" हैं? सरकार ने भी "मेडकली टर्मिनेशन ऑफ प्रेग्नेंसी" (MTP) को कैसे कानूनी जामा पहना दिया है? ये ज्वलन्त प्रश्न यह स्पष्ट संकेत देते हैं कि "विनाश काले विपरीत बुद्धि"।

जबकि हमारे वेद-शास्त्रों में पुत्र या पुत्री (लड़का या लड़की), मनचाही सन्तान प्राप्ति करने के सरल व सहज उपाय वर्णित है और अनेक शताब्दियों से विद्वत्‌जनों द्वारा इसका अनुपालन करके इच्छानुरूप सन्तान प्राप्ति की जाती रही है।

एक प्रसिद्ध आयुर्वेदिक वैद्य जी ने यह जानकारी दी थी कि यदि तिथि विशेष को गर्भाधान (Conception) किया जाए तो अवश्य ही पुत्र सन्तान का जन्म होता है। तिथि =

नोट : उक्त तिथि विशेष की जानकारी को सुश्री घुघूती बासूती जी टिप्पणी के अनुसरण में जनहित में गोपनीय कर दिया गया है, जिसमें उन्होंने यह आशंका व्यक्त की है कि इतना सरल उपाय जानकर लोग का इसका गलत उपयोग करेंगे और सिर्फ पुत्र सन्तानें पैदा होने लगेंगी, धरा से नारी का अस्तित्व लोप हो सकता है, नर-नारी का संतुलन बिगड़ सकता है। सच है कि ऐसा गूढ़ ज्ञान हर व्यक्ति को नहीं देना चाहिए। कुपात्र को दान देना भी पाप होता है। अतः यह विधि उसी दम्पत्ति को बतलाई जा सकती है, जिसके पहले से कम से कम एक कन्या सन्तान हो चुकी हो और कोई कोई पुत्र नहीं हो।

इस सहज उपाय को अनेक दम्पत्ति आजमा चुके हैं तथा लगभग शत-प्रतिशत मामलों में सफलता मिली।

लेकिन इसके लिए आवश्यक है कि सन्तान की इच्छुक महिला के ऋतुकाल (Menses) के बाद 14वें दिन से 21 वें दिन के अन्दर वह तिथि विशेष हो। तीन-चार महीने पहले से बाजार में उपलब्ध सामान्य औषधियों का सहारा लेकर मासिक-धर्म को इस प्रकार सन्तुलित किया जा सकता है। इसके साथ ही पिता बनने के इच्छुक पुरुष को लगभग महीने भर संयम बरतना आवश्यक होता है, ताकि गर्भाधान के दौरान उसके शुक्राणु पर्याप्त संख्या में उपलब्ध हों।

उक्त वैद्य जी के अनुसार प्राचीन भारतीय वैदिक ज्योतिष शास्त्रों में तो यहाँ तक वर्णन है कि किस तिथि, वार, नक्षत्र, मुहूर्त आदि में गर्भाधान करने से किस रूप, गुण व चरित्र की सन्तान का जन्म होता है।

भले ही यह बात आधुनिक डॉक्टरों, वैज्ञानिकों, नास्तिकों को ठीक न लगे, लेकिन इस सरल उपाय को आजमाने में न तो कोई खर्चा करना पड़ता है और न ही कोई विशेष व्रत, उपवास या तपस्या। न ही किसी प्रकार का नुकसान है। अतः सन्तान के इच्छुक दम्पत्तियों के लिए यह विधि सर्वोत्तम है।

कम से कम यह सरल उपाय असंयमित, अनियन्त्रित गर्भाधान करके फिर गर्भपात, भ्रूणहत्या करके ब्रह्मपापी बनने और जीवनभर अन्दर ही अन्दर पश्चात्ताप करने से तो बेहतर है। विशेषकर गर्भपात करवानेवाली महिला को जिस शारीरिक और मानसिक कष्ट और ग्लानि से गुजरना पड़ता है, उससे से वह बच ही सकती है।

17 Aug 2007

हिन्दी श्रुतलेखन सॉफ्टवेयर उन्मोचित

हिन्दी श्रुतलेखन सॉफ्टवेयर उन्मोचित
Hindi Speech Recognition Software

सभी हिन्दी भाषियों, हिन्दी प्रेमियों, हिन्दी चिट्ठाकारों के लिए यह एक बड़ी खुशखबरी है कि हिन्दी में भी अब श्रुतलेखन सॉफ्टवेयर आ गया है। सन् 1993 से सँजोया गया हमारा सपना अब साकार हो गया लगता है जिसकी परिकल्पना क्या कम्प्यूटर क्रान्ति लाएगी हिन्दी क्रान्ति नामक आलेख में इस चिट्ठे पर की गई थी। चलो देर आए, दुरस्त आए!

इसके लिए धन्यवाद हैं सी-डैक, आईबीएम और भारत सरकार के राजभाषा विभाग को, जिन्होंने मिलकर संयुक्त प्रयास से इस सॉफ्टवेयर का विकास किया है।

अब कम्प्यूटर पर हिन्दी में टाइप करने के लिए विभिन्न प्रकार के की-बोर्ड लेआऊट इन्स्टॉल करने, किस बटन में कौन सा अक्षर हैं, उसे खोजने, याद करने और टंकण करने के परिश्रम से मुक्ति मिल सकेगी। सिर्फ कम्प्यूटर के माईक्रोफोन में बोलकर ही हिन्दी पाठ/आँकड़े ही नहीं प्रविष्टि कर सकेंगे, बल्कि कम्प्यूटर को आदेश (Command) भी दे सकेंगे।

एक रोबोट की तरह आपके कम्प्यूटर आपका हुक्म मानेगा। क्या "खुल जा सिम-सिम" वाली कहानी सच हो जाएगी?

इस सम्बन्ध में सबसे पहली सूचना भारत सरकार के राजभाषा विभाग के वेबसाइट पर जुलाई-2007 के मध्यकाल में न्यूयार्क में विश्व हिन्दी सम्मेलन के आयोजन के समय से ही यह सूचना निम्नवत् परिचक्रित (MARQUEE) हो रही है:--

श्रुतलेखन-राजभाषा सॉफ्टवेयर की सी.डी. सी-डैक, पूणे (डॉ. हेमन्त दरबारी, प्रोग्राम कोर्डिनेटर) से प्राप्त की जा सकती है और इसकी एक प्रति का मूल्य 5623/- रू. (कर सहित) है ।

इस सूचना के आधार पर कई लोगों ने डॉ. हेमन्त दरबारी जी से सम्पर्क साधने का प्रयास किया, परन्तु उन्हें अब तक कोई जबाब नहीं मिला।

इसके बाद कल (16.08.2007 को) आईटीन्यूज-ऑनलाइन तथा अन्य समाचारों में भी यह समाचार प्रकाशित हुआ है कि भारत की 60वें स्वतन्त्रता दिवस पर यह सॉफ्टवेयर देसवासियों को एक विशेष उपहार है।

प्रकाशित समाचार के अनुसार यह श्रुतलेखन सॉफ्टवेयर राजभाषा विभाग तथा सीडैक, पुणे द्वारा पहले विकसित "मन्त्र" (MANTRA= Machine-Assisted Translation System) नामक अनुवादक सॉफ्टवेयर द्वारा अंग्रेजी से हिन्दी अनुवाद की गई सामग्री को सम्पादित करने, प्रूफ रीडिंग करने के काम में सहायता करेगा। इसके साथ ही की-बोर्ड की कुञ्जियों का भी सहयोग लेना पड़ेगा। भविष्य में इस तकनीक का उपयोग इण्टरएक्टिव एटीएम-किओस्क पर सूचनाओँ के आदान-प्रदान तथा टेलीफोन माध्यम से जुड़े कम्प्यूटर द्वारा जनता को सूचना प्रदान करने के काम में किया जा सकेगा। चूँकि हरेक व्यक्ति की आवाज का लहजा अलग अलग होता है। अतः इसमें कुछ ऐसी व्यवस्था की गई है कि वह आवश्यक सुधार के साथ शब्दों को ग्रहण करे। इसके साथ हिन्दी वर्तनी शोधक तथा युनिकोड से इस्फोक (ISFOC 8बिट- ट्र-टाइप फोंट कोड) में पाठ को परिवर्तित करने की भी सुविधाएँ दी गई है।

अब देखना यह है कि सी-डैक के कृत्रिम बुद्धि (Artificial Intelligence) विभाग के कार्यक्रम संयोजक, डॉ. हेमन्त दरबारी जी इस सॉफ्टवेयर को आम जनता को तब तक उपलब्ध कराएँगे और यह कितना सही परिणाम (output) प्रदान कर पाएगा। सी-डैक तथा आईबीएम आम उपयोगकर्ताओं को कितना सन्तोषजनक तकनीकी समर्थन एवं सहयोग प्रदान कर पाएँगे और भविष्य इसमें भूल-सुधार (Bugfixes) तथा विकास किस तेजी से हो पाएगा।

उल्लेखनीय है कि पिछले 8-9 वर्षों से अंग्रेजी में श्रुतलेखन के कई सॉफ्टवेयर बाजार में उपलब्ध हैं जिनमें सबसे अच्छा माना जाता है ड्रेगन नेचुरली स्पीकिंग (Dragon Naturally Speeking) तथा इसके बाद दूसरे नम्बर पर था आईबीएम वॉयस टाइप (IBM Voice Type) और तीसरे नम्बर पर था फिलिप्स फ्री स्पीच (Philips Free Speech) जो अंग्रेजी में बोलकर कम्प्यूटर में पाठ प्रविष्टि करने पर 60 से 70 प्रतिशत तक सही प्रतिफल दे पाते थे। फिर पाठ को यथाविधि कीबोर्ड द्वारा टंकण करके या अंग्रेजी वर्तनी शोधक (Spell checker) सॉफ्टवेयरों के माध्यम से भूलसुधार (Proof correction) करना पड़ता था। क्योंकि अंग्रेजी में वर्णों का उच्चारण कुछ और होता है तो इनसे मिलकर बने शब्दों का कुछ और।

लेकिन हिन्दी भाषा(देवनागरी लिपि) में बोलने और लिखने के क्रम में एकरूपता होने तथा लिखित पाठ का हू-बू-बू उच्चारण हो पाने की विशेषता के चलते आशा है कि यह सॉफ्टवेयर 90 से 95 प्रतिशत तक सही परिणाम (output) देगा। आशा है विश्व में हिन्दी की स्थिति अब और दृढ़ होगी। (जारी...)

14 Aug 2007

वैदिक संस्कृत स्वर चिह्नों का यूनिकोड मानकीकरण

वैदिक संस्कृत स्वर चिह्नों का यूनिकोड मानकीकरण
Vedic Sanskrit Unicode Encodings

प्रतीक जी ने अपने चिट्ठे पर यूनिकोड और वैदिक संस्कृत में प्रश्न किया है कि वैदिक संस्कृत में प्रयुक्त विशेष स्वराघात चिह्नों या वर्णों को यूनिकोड में कम्प्यूटर पर कैसे टंकित किया जाए। अतः यहाँ इस सम्बन्ध में अभी तक हुई प्रगति तथा कुछ तकनीकी जानकारी देने का प्रयास किया जा रहा है।

वेदों को "श्रुति" कहा गया है। आरम्भ में वेदों का ज्ञान केवल गुरु-शिष्य परम्परा से प्राप्त होता था। शिष्य गुरु-मुख से सुनकर ही ऋचाओं को याद करता था। लोगों को स्मरण शक्ति प्रबल थी इसलिए लिखने की जरूरत नहीं होती थी। मन्त्र सिद्ध होने पर कई कार्य सिर्फ मन्त्र पढ़ने से ही सम्पन्न हो जाते थे। मंत्रों के बल पर ही वर्षा की जा सकती थी, मंत्रोच्चार से ही अच्छी फसल हो पाती थी। मन्त्र पाठ मात्र से ही विभिन्न रोगों को ईलाज सम्भव हो पाता था। ऋषि-मुनियों के "वरदान" या "शाप" देने के दौरान जो उनके मुख से निकल जाता था, वह तुरन्त कार्यान्वित हो जाता था।

बाद में लिपि का प्रचलन होने के बाद सर्वप्रथम ब्राह्मी लिपि का आविष्कार हुआ तथा धीरे धीरे इसका क्रमविकास होते होते देवनागरी लिपि परिष्कृत रूप में विकसित हुई और भाषा का संस्कार होते होते "संस्कृत" नाम से प्रचलित हुई।

चारों वेद (सामवेद, यजुर्वेद, अथर्ववेद और ऋग्वेद) देवनागरी लिपि में वैदिक संस्कृत भाषा में लिखे गए। वैदिक ऋचाओं के सही उच्चारण को विशेष महत्त्व दिया जाता है। यदि उच्चारण जरा-सा भी गलत हो जाए तो ऋचाएँ या मन्त्र उलटा प्रभाव डाल सकते हैं। लाभ के वजाए भयंकर हानि हो सकती है। इसलिए वैदिक ऋचाओं में स्वरों का सही उच्चारण प्रकट करने के लिए विशेष चिह्नों का प्रयोग होता था। जिनमें स्वरित, उदात्त, अनुदात्त, प्लुत, गुंकार, जिह्वामूलीय तथा विभिन्न प्रकार के अनुस्वार तथा अनुनासिक एवं विसर्ग आदि स्वर चिह्न प्रमुख हैं।

वेदों में एक ही ध्वनि/स्वर के उच्चारण के लिए सामवेद में अलग चिह्न मिलता है तो अथर्ववेद या यजुर्वेद में अलग प्रकार के चिह्न का प्रयोग मिलता है। कुछ दशक पहले पुस्तकों की छपाई छापाखाने (Letter press) में शीशे से बने टाइपफेस से कम्पोज करके ट्रेडल मशीन पर होती थी, जिसके लिए वैदिक स्वर चिह्नों के भी टाईपफेस बनाए गए थे।

किन्तु कम्प्यूटर के प्रचलन के बाद छपाई-पूर्व समग्र प्रोसेसिंग डेस्क-टॉप-पब्लिशिंग (DTP) द्वारा होने लगी, तो वैदिक स्वर चिह्नों/वर्णों के कुछ कम्प्यूटर-फोंट्स बनाए गए, जो ASCII के सुपरसेट के रूप में ही कार्य कर पाते थे। ये वाराणसी, दिल्ली आदि के कुछ प्रेस में अभी प्रयोग किए जा रहे हैं। कुछ संस्कृत संस्थानों के संस्कृत पाठ (Text) जो इण्टरनेट पर उपलब्ध हैं, वे XDEVNAG.TTF में सम्पादित किए गए हैं।

किन्तु इण्टरनेट के विकास/प्रचलन के बाद संसार की समस्त भाषाओं/लिपियों के सभी अक्षरों को स्वतन्त्र सत्ता प्रदान करने की आवश्यकता हुई तो युनिकोड (Unique Code = Unicode) कोन्सोर्टियम द्वारा यह बीड़ा उठाया गया और संसार की हरेक लिपि के हरेक अक्षर के लिए एक अनुपम कोड नम्बर निर्धारण किया गया, जो 16-बिट अर्थात् 2 बाईट का होता है। ताकि इण्टरनेट/ई-मेल आदि द्वारा संजाल(Web) पर सूचना-विनिमय के दौरान किसी भाषा/लिपि में प्रकट/प्रकाशित/प्रेषित की गई किसी सूचना में कोई अवांछित परिवर्तन/गड़बड़ी न हो और वह हू-ब-हू उसी रूप में प्रकट हो।

देवनागरी लिपि संस्कृत, हिन्दी, मराठी, नेपाली, सहित 8 भाषाओं और अनेक बोलियों की लिपि है। युनिकोड कोन्सोर्टियम द्वारा अब तक निर्धारित देवनागरी युनिकोड 5.0 में कुल 109 वर्णों/चिह्नों का मानकीकरण किया गया है।

इनमें वैदिक संस्कृत में प्रयोग होनेवाले 4 स्वराघात चिह्नों को निम्नवत् शामिल किया गया है।

Windows XP के हिन्दी (देवनागरी) के default कीबोर्ड Hindi Traditional के माध्यम से इनको टंकित करने के लिए विशेष कुञ्जियों की जोड़ी का निर्धारण किया गया है। जिन्हें Control+Alt+Shift+key समुच्चय दबाकर टंकित किया जा सकता है।

वेदिक स्वरों/चिह्नों के मानकीकरण का इतिहास

इसके पूर्व 1991 में भारत सरकार के भारतीय मानक ब्यूरो (Bureau of Indian Standards) द्वारा ISCII-1991 मानक IS 13194:1991 के ANNEX-G के अन्तर्गत वेदिक के 31 चिह्नों/स्वरों (उदात्त, अनुदात्त्, स्वरित, कम्प, जिह्वामूलीय, पुष्पिका, गुंकार, कालबोधक आदि) का निर्धारण एवं मानकीकरण किया गया था, जिन्हें GIST CARD युक्त कम्प्युटरों में टाइप तथा संसाधित करने की भी सुविधा प्रदान की गई थी। कुछ वैदिक साहित्य का इसकी मदद लेकर कम्प्यूटरीकरण भी किया गया था। इनकी एक झलक निम्नवत् है:

इसके बाद भारत सरकार के सूचना प्रौद्योगिकी मन्त्रालय के अन्तर्गत "भारतीय भाषाओं के लिए प्रौद्योगिकी विकास" विभाग (TDIL) के तत्वावधान में क्रमशः अगस्त-2000, जून-2001, जुलाई-2002 में वेदिक संस्कृत वर्णों के युनिकोड में मानकीकरण के लिए तीन रिपोर्टें पेश की गई।

तत्पश्चात् अप्रेल-2002, जून-2002, सितम्बर-2002 में तीन बैठकें आयोजित हुई जिनमें युनिकोड में मानकीकरण हेतु वैदिक संस्कृत के विशेष स्वरों/चिह्नों/वर्णों के संग्रह तथा निर्धारण के बारे में तकनीकी चर्चाएँ हुईं। इन बैठकों में देश-विदेश के विभिन्न संस्कृत अध्ययन/अध्यापन संस्थानों, अनुसन्धान केन्द्रों, विश्वविद्यालयों, भाषाविदों तथा कम्प्यूटर तकनीकी विशेषज्ञों ने भाग लिया।

वैदिक संस्कृत के वर्णों/चिह्नों के मानकीकरण का कार्य भारत सरकार के संस्थान, सी-डैक, मुम्बई (पूर्व एन.सी.एस.टी.) को सौंपा गया जो 1985 से भारतीय भाषाओं के कम्प्यूटरीकरण हेतु विभिन्न अनुसन्धान कार्यों से जुड़ा हुआ है। वैदिक संस्कृत के युनिकोड मानकीकरण सम्बन्धी दायित्व "प्रो. आर॰के॰जोशी" के नेतृत्व में एक दल सम्भाल रहा है।

इसके बाद भारत सरकार के प्रतिनिधियों के अवलोकन के बाद वैदिक संस्कृत के युनिकोड मानक निर्धारण हेतु मसौदे (Draft) TDIL की तकनीकी-पत्रिका "विश्वभारत" के अक्टूबर-2002 अंक में विद्वानों की समीक्षा तथा फीडबैक के लिए प्रकाशित किए गए, जिनकी पीडीएफ फाइल यहाँ उपलब्ध है। यह मसौदा युनिकोड कोन्सोर्टियम को मानकीकरण हेतु प्रस्ताव के साथ भेजा गया। इसमें दो खण्ड थे चार्ट-1 और चार्ट-2. चार्ट-1 सदियों से चली आई वैदिक संस्कृत की सर्वोत्तम ध्वनि-विज्ञान सम्मत मूल-"व्यञ्जन+स्वर" के संयोग से विभिन्न अक्षरों के संयोजन की सरल तथा सुबोध अवधारणा पर आधारित था, जो कि डैटाबेस प्रबन्धन(Database Managemenet), ध्वनि से पाठ (Speech to Text), तथा पाठ से ध्वनि(Text to Speech), शब्दबोध, शुद्ध वर्णक्रमानुसार छँटाई (Alphabetical Sorting Order), सूचकांकन (Indexing) शब्दकोश-निर्माण-विज्ञान (Lexicology), व्याकरण-संरचनाओं, अनुवाद आदि विभिन्न कम्प्यूटर में संस्कृत (हिन्दी-देवनागरी सहित) के सम्पूर्ण उन्नत संसाधन (Advanced Processing) कर पाने की सक्षमता प्रदान करती थी।

चार्ट-2 में स्वर/ध्वनि की तीव्रता (Pitch), काल(Duration), बल (Stress), कम्प (Vibration) प्रदिपादक स्वर-चिह्नों, वैदिक अनुस्वारों, विसर्गों, अन्य स्वरित चिह्नों और आदेशों को शामिल किया गया था। दिसम्बर-2005 तक परिशोधित चार्ट-2 की झलक निम्नवत् है:

इसके बाद युनिकोड कोन्सोर्टियम की कुछ अन्तर्राष्ट्रीय बैठकों में इन के कोड निर्धारण पर तकनीकी चर्चा हुई। दुर्भाग्यवश कुछ तथाकथित विद्वानों द्वारा "अनावश्यक दोहराने" का तर्क लगाते हुए प्रस्तावित चार्ट-1 को अनावश्यक बताते हुए स्थगित कर दिया गया। सिर्फ चार्ट-2 के वर्णों/चिह्नों के मानकीकरण हेतु आगे और विशेष चर्चा हेतु कुछ व्याख्याएँ व विवरण, उदाहरण आदि प्रस्तुत करने तथा और जाँच-पड़ताल करने हेतु निर्देश दिया गया।

तदनुसार चार्ट-1 को स्थगित करते हुए मई-2006 में सिर्फ चार्ट-2 को कुछ और परिशोधत कर जारी किया गया, जिसकी झलक निम्नवत् है:

इसके बाद सी-डैक, मुम्बई में 10-11 मार्च,2007 को विभिन्न वैदिक संस्कृत विद्वानों, तकनीकी विशेषज्ञों तथा भारत सरकार के प्रतिनिधियों की एक बैठक आयोजित हुई जिसमें वैदिक संस्कृत वर्णों के विभिन्न पहलुओं पर व्यापक चर्चाएँ हुईं और अनेक शोध-पत्र प्रस्तुत किए गए। विद्वानों के फीडबैक तथा सुझावों के अनुसार प्रस्तावित चार्ट-2 में कुछ और संशोधन किए गए।

वर्तमान स्थिति

इसके बाद प्रो॰आर॰के॰जोशी जी त्रिवेन्द्रम, तिरुपति, पुरी, भुवनेश्वर, दिल्ली, वाराणसी, कोलकाता आदि विभिन्न स्थानों पर वैदिक संस्कृत के विद्वानों/विशेषज्ञों की बैठकें कर चुके हैं तथा और फीडबैक तथा सुझाव इकट्ठे कर रहे हैं तथा आवश्यक संशोधन तथा परिशोधन कर रहे हैं ताकि वैदिक स्वरों/चिह्नों का मानकीकरण त्रुटिरहित और यथासम्भव सम्पूर्ण रूप से हो सके।

क्योंकि युनिकोड कोन्सोर्टियम की "Stability Policy" के अनुसार एक बार एनकोड किए गए अक्षर को फिर से सुधारना, डिलिट करना या पुनर्परिभाषित करना लगभग असम्भव होता है। क्योंकि युनिकोड द्वारा एक बार CLDR जारी किए जाने के बाद यह संसार भर के समस्त कम्प्यूटरों में स्वतःनिर्मित रूप से उपलब्ध हो जाता है।

इस सम्बन्ध में वैदिक संस्कृत के विद्वानों/विशेषज्ञों को कोई विशेष जानकारी चाहिए या कोई सुझाव या

फीडबैक देना हो तो निम्न पते पर उनसे सम्पर्क करें:-
Prof. R.K.Joshi,
CDAC Mumbai (Formerly NCST)
Gulmohar Cross Rd No.9
Juhu, Mumbai-4000049, India
Email : mailto:rkjoshi@cdacmumbari.in
या उनकी सहयोगी डॉ. अलका जी से उपरोक्त पते पर सम्पर्क कर सकते हैं:-
Dr. Alaka Irani
Email: alka@cdacmumbai.in

भावी परिकल्पना (Vision)

वेदिक संस्कृत वर्णों के विशेषकर चार्ट-1 का निर्धारण एवं मानकीकरण यदि हो जाए तो भारतीय भाषाओं की कम्प्यूटिंग के क्षेत्र में रोजाना उपजने वाली अनेकानेक समस्याओं का समाधान हो सकता है तथा हिन्दी-देवनागरी (तथा अन्य भारतीय भाषा/लिपियाँ) वर्तमान क्लिष्ट लिपियों (Complex Scripts) की बुरी छाप से छूट कर सरल तथा सपाट और अंग्रेजी(रोमन) से भी अधिक सरल बन सकती है। इस बारे में अलग लेख में विस्तार से प्रकाश डाला जाएगा।

13 Aug 2007

भाषा कुञ्जीपटल बदलने हेतु बेहतर कुञ्जी

भाषा कुञ्जीपटल बदलने हेतु बेहतर कुञ्जी

Better Language Keyboard toggle key

श्रीश जी ने ईपण्डित पर तकनीकी आलेख हैक - बरहा, कैफे हिन्दी आदि द्वारा एम एस‌ वर्ड में हिन्दी टाइप करना में विण्डोज-एक्सपी के कण्ट्रोल पैनल में की-बोर्ड ले-आऊट जोड़ने की अच्छी तथा उपयोगी तकनीकी जानकारी प्रकाशित की है।

इसमें अपने अनुभव से एक और बेहतर कदम जोड़ने के लिए विवरण यहाँ दिया जा रहा है। यह देखा गया है कि अंग्रेजी तथा हिन्दी भाषा का कुञ्जीपटल बदलने के लिए डिफॉल्ट कुञ्जियों (default toggle-key) Left Alt+Shift का उपयोग करने से निम्नवत् समस्याएँ प्रकट होती है:

1. Left Alt+Shift दोनों कुञ्जियों को एक साथ दबाने से ही Language-Key-board बदलने का आदेश(command) सक्रिय होता है। यदि दोनों के एक साथ दबाने में पल-भर(a moment) भी इधर-उधर हो जाए, तो ये कुञ्जियाँ विण्डोज के अन्य डिफॉल्ट आदेशों को सक्रिय कर देती हैं। जो सबसे होनेवाली स्वाभाविक गलती है। अच्छे अनुभवी टाइपिस्ट से भी यह गलती बारम्बार हो जाती है।

अक्सर Alt कुञ्जी पहले दब जाती है और Shift कुञ्जी बाद में दबती है। एक-साथ नहीं दब पाने से अंग्रेजी से हिन्दी या हिन्दी से अंग्रेजी कुञ्जीपटल बदलने का कार्य सक्रिय नहीं हो पाता। बल्कि Alt कुञ्जी दबते ही चालू विण्डो (current window) का मीनू सक्रिय हो जाता है। इसके एक पल बाद Shift की दबने पर यह कुछ काम नहीं करती।

इसके बाद जिस भी कुञ्जी बटन/अक्षर दबता है, उससे सम्बन्धित मीनू की खिड़की खुल जाती है। उदाहरण के लिए Alt+F .या Alt+f जो भी दब जाए, File menu (dropdown) सक्रिय हो जाता है। Alt+E या Alt+e जो भी दब जाए, Edit menu (dropdown) सक्रिय हो जाता है और हिन्दी के अक्षर टाइप करना शुरू करने पर अन्य आदेश सक्रिय होकर कई प्रकार की गड़बड़ी पैदा कर देते हैं।

अतः इससे एक कदम और आगे जाकर निम्न प्रकार की settings बदलें Advanced Key-settings में Change key sequence पर क्लिक करें।

इसपर एक नई विण्डो खुलेगी, जिसमें Switch input languages के default बटनों पर क्लिक करके Control+Shift को चुनें। तथा Switch keybaord layouts के डिफॉल्ट बटनों पर क्लिक करके Left Alt+Shift को चुनें।

क्योंकि विण्डोज-एक्सपी में यहाँ एक भाषा/लिपि के लिए कई कीबोर्ड लेआउट स्थापित (install) करने की सुविधा है, (जैसा कि ऊपर के चित्र में दो हिन्दी भाषा के लिए दो कुञ्जीपटल इन्स्टॉल दिखाई दे रहे हैं--

(1) Switch to Hindi- Devanagari - INS5(HRP)
और
(2) Swith to Hindi - Hindi Indic IME 1 (V 5.0)

लेकिन एक उपयोक्ता (user) को एक ही भाषा का विकल्प कीबोर्ड लेआउट बदलने की जरूरत शायद ही कभी पड़ती है। जबकि अंग्रेजी और हिन्दी के बीच कुञ्जीपटल को बदलने की जरूरत बारम्बार पड़ती है। इसके लिए Left Alt+shift के बदले Control+Shift दबाना ज्यादा सुविधाजनक, त्रुटिहीन एवं समस्यारहित होता है।

अतः भाषा/लिपि का कुञ्जीपटल बदलने (toggle) करने के लिए Contrl+Shift बटनों का विकल्प ही चुनना और विकल्प की-बोर्ड लेआऊट बदलने के लिए Left Alt+Shift बटनों का विकल्प चुनना कहीं अधिक सुविधाजनक होगा।

7 Aug 2007

डीटीपी व ग्राफिक्स सॉफ्टवेयरों में भारतीय युनिकोड अनुकूलता

डीटीपी व ग्राफिक्स सॉफ्टवेयरों में भारतीय युनिकोड अनुकूलता

Indic Unicode compatibility in DTP and Graphics Softwares

अन्तर्राष्ट्रीय वर्ण-कूट मानक 16-बिट युनिकोड की लोकप्रियता संसार-भर में दिन-दूनी रात-चौगनी बढ़ती जा रही है तथा इसके साथ ही हिन्दी तथा अन्य भारतीय भाषाओं में भी वेबसाइट, ब्ल़ॉग चिट्ठे, ऑन-लाइन वेब आधारित औजारों/उपकरणों/सुविधाओं का प्रयोग धड़ाधड़ बढ़ते जा रहा है, ई-मेल में सीधे सम्प्रेषण किया जा रहा है। मोबाईल फोन पर भी हिन्दी तथा भारतीय भाषाओं में संक्षिप्त सन्देशों (SMS) तथा इण्टरनेट संचार किया जाने लगा है।

किन्तु डेस्क टॉप पब्लिशिंग ( DTP), डिजाइनिंग, पृष्ठसज्जा (Page-layout) तथा ग्राफिक्स सॉफ्टवेयरों में फिलहाल सिर्फ Microsoft Publisher (XP/2003/2007) में ही भारतीय युनिकोड मानकीकृत कोड तथा ओपेन टाइप फोंट्स में काम करना सम्भव है, जो MS-Office-Premium (XP/2003/2007) समूह के सॉफ्टयेवरों के एक भाग रूप में आता है। लेकिन इस सॉफ्टवेयर में प्रकाशन उद्योग की जरूरतों की तुलना में "ऊँट के मुँह में जीरा" के बराबर ही अल्प-स्तर की विशेषताएँ (Features) उपलब्ध हैं। यह लोकप्रिय DTP & Designing softwares के समक्ष नन्हे बच्चे के बराबर है।

डेस्क टॉप पब्लिशिंग ( DTP), डिजाइनिंग, पृष्ठसज्जा (Page-layout) तथा ग्राफिक्स सॉफ्टवेयरों (यथा Adobe Pagemaker, InDesign, Illustrator, Coreldraw, Macromedia Freehand, Quark Express इत्यादि) में हिन्दी भारतीय भाषाओं में युनिकोड समर्थित ओपेन टाइप फोंट्स में कार्य कर पाना सम्भव नहीं है। ASCII के सुपरसेट पर पैबन्द की तरह चिपका कर काम चलाए गए 8-बिट ट्रू-टाइप (True Type Font, TTF) या पोस्टस्क्रिप्ट (PSF) फोंट्स में काम करना पड़ता है। जिसके कारण जिसके कारण वर्णक्रमानुसार छँटाई (Alphabecial Sorting), सूचकांकन (Indexing), स्वचालित विषय-सूची निर्माण, वर्तनी-शोधन (Spell-checking), तुरत तलाश (Searching), डैटाबेस आयात (Database Importing) आदि सुविधाओं का उपयोग नहीं किया जा सकता।

विशेषकर हिन्दी तथा भारतीय भाषाओं के समाचार-पत्रों/अखबारों/पत्र-पत्रिकाओं को बेकार में दुगुना परिश्रम करना पड़ता है:

1. कागज पर मुद्रित रूप में पत्र-पत्रिका प्रकाशित करने के लिए 8-बिट TTF में समस्त पेज-लेआऊट, ग्राफिक्स, डिजाइन, कम्पोजिंग तथ प्री-प्रेस कार्य सम्पन्न करना।

2. वेबसाइट पर उपलब्ध कराने या ई-वर्सन निकालने के लिए इसके पाठ को युनिकोड में फिर से टंकण करना।

कुछ अखबारों/पत्र-पत्रिकाओं ने अपने 8-बिट फोंट से युनिकोड में परिवर्तन करनेवाले code-converter सॉफ्टवेयरों को विकसित करवा लिया है। किन्तु शेष को युनिकोड में फिर से टंकण करना पड़ता है। कई प्रकाशनों को युनिकोड में पाठ परिवर्तित करने के बाद दुबारा प्रूफ रीडिंग व सम्पादन करना पड़ता है, क्योंकि 8-बिट फोंट से 16-बिट यूनिकोड में पाठ-परिवर्तन के दौरान कई गलतियाँ हो जाती है, हिन्दी 8-बिट फोंटों की जटिलताओं के कारण 100% सही रूप में परिवर्तन सम्भव नहीं है। इस समस्या पर अलग लेख में विस्तार से प्रकाश डाला जाएगा।

यही कारण है कि हिन्दी अखबारों के इण्टरनेट संस्करण में मुद्रित संस्करण की तुलना में काफी कम सामग्री होती है। तथा इण्टरनेट संस्करण मुद्रित संस्करण से बिल्कुल अलग डिजाइन का होता है।

उपर्युक्त सॉफ्टवेयरों के नवीनतम वर्सन में 16-बिट अर्थात् (2-बाईट) युनिकोड की कम्पाटिबिलिटी उपलब्ध कराई गई है, संसार की कई भाषाओं में हिब्रू, हांगुल, चीनी-जापानी-कोरियाई, ग्रीक आदि में युनिकोड में कार्य करना सम्भव हो गया है।

भारत में अभी भी लोग Adobe-Pagemaker 6.x या 7.x वर्सन का ही उपयोग करते देखे जाते हैं। जबकि Adobe Pagemaker-7.0 सन् 2001 में विकसित हुआ था। 2002 में इसका विकास/समर्थन बन्द हो गया।

2002 में इसका नया वर्सन Adobe InDesign 1.0 निकला,

2003 में इसका Adobe InDesign का वर्सन-2.0 विकसित हुआ और पुराने का सपोर्ट बन्द हो गया।

2004 में इसे और विकसित करके Adobe Creative Suite 1.0 में एकीकृत कर दिया गया। (CS-1 में Photoshop, Illustrator, After-effects आदि शामिल हैं) तथा इसके सभी सॉफ्टवेयरों के बीच Compatibility सुनिश्चित हुई।

2005-06 में Creative Suite-2 विकिसित तथा रिलीज हुआ। अब इसका नवीनतम वर्सन सीएस3 (Adobe Creative Suite-3) रिलीज हो चुका है। जिसमें डीटीपी, वेबसाइट डिजाइन/होस्टिंग, ग्राफिक्स-डिजाइन, ओडियो तथा वीडियो एडिटिंग के अनेक पैकेज एकीकृत किए गए हैं।

लेकिन डीटीपी व पृष्ठसज्जा के नवीनतम सॉफ्टवेयर Adobe InDesgin CS3 में युनिकोड (2-बाईटवाले कोड) का समर्थन तो मिल गया है, लेकिन हिन्दी तथा भारतीय भाषाओं के युनिकोड का समर्थन पूर्ण रूप से तथा सही रीति नहीं हो पा रहा है। विशेष प्रकार से यदि भारतीय युनि-कोड कूटों में पाठ प्रविष्टि की जाए तो वह सिर्फ मूल युनिकोड कूटों में प्रदर्शित होता है। मात्राओं, संयुक्ताक्षरों के बीच में खाली बक्से या आऊटलाइन शून्य प्रकट होंगे। यदि कम्प्यूटर स्क्रीन पर पारम्परिक रूप में प्रदर्शित हो भी जाएँ तो पोस्टस्क्रिप्ट-प्रिटर/इमेजसेटर/कलर-सेपरेटर/प्री-प्रोसेसर पर मुद्रण-करने/ट्रेसिंग/फिल्म/ट्रांसपरेन्सी बनाने तथा प्लेट बनाने पर उसमें हिन्दी तथा अन्य भारतीय भाषाओं के पाठ में मूल अक्षरों, संयुक्ताक्षरों और मात्राओं के बीच खाली बक्से या आऊटलाइन शून्य छप जाएँगे। और मुद्रण-उद्योग का हजारों रुपये का नुकसान हो जाएगा।

प्रश्न : इसका क्या कारण है?

उत्तर : इसका कारण निम्नलिखित कई तकनीकी समस्याएँ हैं।

1. इण्डिक युनिकोड अपने आप में एक त्रि-आयामी समस्या है :

भारतीय भाषाओं के लिए युनिकोड भले ही अन्तर्राष्ट्रीय एकरूपता तथा इण्टरनेट पर सूचना आदान-प्रदान करने के लिए एक वरदान बनकर आया है, लेकिन कुछ गलत सिद्धान्तों पर आधारित होने के कारण युनिकोड अपने आप में एक तीन-मञ्जिली समस्या है। बिल्कुल उसी तरह जैसे कोई व्यक्ति तीन नावों में (हरेक में एक-एक) पैर रखकर समुद्र पार करने का प्रयास करे। भारतीय भाषाओं में युनिकोड में कम्प्यूटिंग भी उसी प्रकार अत्यन्त जटिल और जोखिम-भरी है

(1) पहला आयाम - IME

पाठ प्रविष्टि (Text entry) तो मूलतः अंग्रेजी के QWERTY की-बोर्ड में ही करनी पड़ती है, आपका Input Method Editor (IME) उसे युनिकोड कूटों में बदलकर भण्डारित (Save) करता है। उदाहरण के लिए Inscript Keyboard में हमें "राष्ट्रीय" शब्द टाइप करने के लिए हमें मूलतः यह अंग्रेजी के अक्षर टंकित करने पड़ते हैं--

Input Method Editor इसे मूल यूनिकोड कूटों में निम्नवत् बदलता है।

(2) दूसरा आयाम - कम्प्यूटर का आन्तरिक संसाधन

कम्प्यूटर अपने आन्तरिक संसाधन (Processing) भण्डारण (Storing, saving) के लिए सिर्फ युनिकोड के कूटांकों (code-numbers) का ही उपयोग करता है। जैसे "राष्ट्रीय" शब्द कम्प्यूटर में अन्दरूनी रूप से सिर्फ युनिकोड के HEX CODE में इस प्रकार save होता है।

(3) तीसरा आयाम - पारम्परिक रूप में प्रदर्शन तथा मुद्रण हेतु सिर्फ फोंट के वर्णखण्डों(Glyphs) का उपयोग

इन्हें पारम्परिक रूप में प्रदर्शित करने के लिए आपरेटिंग सीस्टम का REDERING ENGINE हिन्दी(देवनागरी) के उस ओपेन टाइप फोंट-विशेष (जिसे पाठ-प्रदर्शन(Display) के लिए सेलेक्ट किया है, यथा- मंगल) में डिजाइन किए गए हिन्दी वर्णों के टुकड़ों या वर्ण-समुच्चयों, (जिन्हें GLYPHS कहा जाता है), में बदलकर प्रकट करता है।

उदारहण के लिए "राष्ट्रीय" शब्द के लिए ये निम्न GLYPHS होंगे-

जबकि इसमें सिर्फ तीन अक्षर (Syllable) निम्नवत् माने जाते हैं--

Microsoft Windows 2000/XP/2003/Vista आपरेटिंग सीस्टम् के साथ अन्तःनिर्मित युनिकोड स्क्रिप्ट प्रोसेसर (Uniscribe) प्रोग्राम के अन्दर हिन्दी तथा भारतीय भाषाओं के पारम्परिक रूप में प्रदर्शन (Display/Rendering) करने के जटिल-सूत्र शामिल हैं, जिनके अभाव में भारतीय भाषाओं का पाठ सिर्फ मूल युनि-कोड में ही प्रकट हो सकता है। क्योंकि आन्तरिक संसाधन के लिए पाठ का भण्डारण(Saving), वर्णक्रमानुसार छँटाई (Alphabecial sorting), सूचकांकन (Indexing), खोज (Searching) आदि सिर्फ Code Points में ही हो सकते है, OT फोंट्स में डिजाइन किए गए वर्णखण्डों (Glyphs) के आधार पर नहीं। Rendering Engine युनिस्क्राईब मूल युनिकोड कूटों को OT font के Glyphs में तत्काल (on-the-fly) बदल कर स्क्रीन पर प्रदर्शित करता है, अर्थात् उसे उड़ते-उड़ते कलाबाजी खानी पड़ती है। (यही कार्य पुराने 8-बिट इण्डिक वर्डप्रोसेसिंग सॉफ्टवेयरों में एक TSR (Terminate and Stay Resident) प्रोग्राम यथा की-बोर्ड-ड्राईवर के द्वारा सम्पन्न होता था।) मुद्रण हेतु print कमाण्ड देने पर युनिकोड के मूल कूट प्रिटर की मेमोरी में नहीं जाते बल्कि सिर्फ OT Fonts के Glyphs ही जाते हैं। या स्क्रीन पर प्रदर्शित पाठ छवि(image) बनकर ग्राफिक्स मोड (Graphics Mode) में Vector या Raster प्रारूप में प्रिंटर पर मुद्रित होता है।

लिनक्स में पांगों (Pango) जैसे Unicode Script Processor व Rendering Engine के सहारे तथा Apple Mac कम्प्यूटरों में उसके निजी विशेष प्रोग्राम के सहारे उपरोक्त प्रदर्शन (rendering) हासिल किया जाता है।

इस प्रकार देवनागरी तथा भारतीय भाषाओं का कम्प्यूटर-संसाधन उसी प्रकार जटिल/दुरूह तथा जोखिम-भरे ढंग से पूरा हो पाता है-- जैसा कि कहावत है-- हाथी के दाँत, खाने के और, दिखाने के और। उसी ढंग के हिन्दी-देवनागरी (तथा अन्य भारतीय लिपियों) के कम्प्यूटर में आन्तरिक संसाधन के लिए युनिकोड कूट (खाने के दाँत) का प्रयोग होता है जबकि पारम्परिक रूप में स्क्रीन पर प्रदर्शन और मुद्रण के लिए OT Font के glyphs (दिखाने के लिए हाथी के बड़े-बड़े सफेद दाँत या हाथी के सींग) का प्रयोग होता है।

यह बात एक और उदाहरण से समझाई जा सकती है। जिस प्रकार एक दोमुँहा साँप होता है। एक मुँह आगे की तरफ, दूसरा मुँह पूँछ की तरफ। कभी-कभी उस साँप का एक सिर उसे आगे की ओर खीँचता है और दूसरा सिर पीछे की तरफ। जिस सिर का जोर ज्यादा चलता है, साँप उसी ओर रेंगता है। कभी-कभी दोनों मुँहों के बीच विपरीत संघर्ष व खिंचाव होकर साँप का धड़ बीच में से टूट जाता है और साँप मर जाता है।

यदि तीन मुँह वाला साँप हो तो यह स्थिति कैसी तथा कितनी खतरनाक होगी, आप स्वयं अन्दाजा लगा सकते हैं।

एक और उदाहरण लें--

यदि एक रेलगाड़ी में दो इंजिन लगे हों और एक ही दिशा में चल रहे हों तो वह गाड़ी तेजी से भागेगी। कई मालगाड़ियों में दो-दो इंजिन लगाने पड़ते हैं, ताकि अधिकाधिक वैगनों को खीँच कर ले जा सके। लेकिन यदि एक इंजिन रेलगाड़ी के आगे लगा हो और आगे की ओर खीँच रहा हो, और दूसरा इंजिन पीछे लगा हो और पीछे की ओर खीँच रहा हो तो सोचिए उस रेल की क्या गति होगी। रस्साकस्सी जैसी... या तो जो इंजिन कमजोर होगा, वह तथा उससे संलग्न वैगनें हार कर दूसरे की शक्ति अनुसार घिसटेंगे, और अन्ततः गिर पड़ेंगे या रस्सी रूपी रेल बीच में से टूट कर अलग-अलग होकर विपरीत दिशाओं में दौड़ पड़ेंगी। यदि तीन इंजिन तीन दिशाओं में खींच रहे हों तो क्या हाल होगा? इस जटिल प्रक्रिया को विस्तार से अलग लेख में उदाहरण सहित समझाया जाएगा।

2. Adobe, Macromedia आदि द्वारा युनिस्क्राईब को नहीं अपनाया जाना

Adobe, Macromedia आदि ग्राफिक्स व डिजाइन सॉफ्टवेयर उद्योग समूह Microsoft Windows OS के साथ अन्तःनिर्मित युनिकोड स्क्रिप्ट प्रोसेसर (Uniscribe) को समर्थन नहीं करते, इसे लाँघ (Bypass) करके ही अपने सॉफटवेयरों को संचालित करते है। इसका कारण तकनीकी है। क्योंकि डीटीपी, डिजाइनिंग, ग्राफिक्स आदि सॉफ्टवेयरों का काम सिर्फ कम्प्यूटर संसाधन तक ही सीमित नहीं रहता। कम्प्यूटर में सम्पादित तथा डिजाइन किया गए पाठ तथा चित्रादि (ग्राफिक्स) की फिर से और प्रोसेसिंग करनी पड़ती है जो पोस्टस्क्रिप्ट(Postscript) प्रिंटरों, स्कानरों, रंग-विश्लेषण-पृथ्थकीकरण (Color-separation), छवि-स्थिरक (image-setter) आदि उपकरणों के द्वारा, 4 अलग रंगों (Cyan, Yellow, Magenta & Block = CYMK), की चार अलग-अलग फिल्म-ट्रेसिंग प्रिंट-आऊट निकालने, पेपर/प्लास्टिक/जिंक/पोलीमर प्लेट बनाने तक कई स्तर की होती है।

सामान्य रूप से एक सरल उदाहरण लें- कम्प्यूटर से जब पीसील प्रिंटर (PCL laser printer पर) कोई पृष्ठ प्रिण्ट करने का आदेश (Print command) दिया जाता है तो हिन्दी तथा भारतीय भाषाओं का पाठ पहले पूर्णतः ग्राफिक्स या छवि (image) में बदलकर प्रिंटर के resolution (लगभग 300 DPI=dots per inch /या 600 DPI ) के हिसाब से कागज पर मुद्रित होता है। जिससे हरेक पेज को प्रिंट करने में काफी ज्यादा समय लग जाता है।

किन्तु मुद्रण उद्योग में कई अतिरिक्त सुविधाओं तथा उच्च गुणवत्ता के लिए पोस्टस्क्रिप्ट(Postscript) लेजर प्रिंटरों का ही उपयोग किया जाता है। पोस्टस्क्रिप्ट प्रिंटर की अचल-मेमोरी(ROM, Read only memory) में कई फोंट पूर्वनिर्मित (inbuit) रूप से भण्डारित होते हैं। पाठ (text file) ही सीधे प्रिंटर को प्रेषित होती है। जिससे मुद्रण में समय कम लगता है। एक मिनट में 12 से 50 पृष्ठ तक (क्षमतानुसार) धड़ाघड़ छप जाते हैं। चूँकि भारतीय भाषाओं के फोंट्स प्रिंटर के ROM में inbuilt नहीं होते हैं, अतः इण्डिक पाठ को पोस्टस्क्रिप्ट प्रिंटर में प्रिंट करते वक्त वे-वे विशेष फोंट (जिनमें पाठ को कम्पोज किया गया है), की फाइलें पहले स्वतः डाउनलोड होकर प्रिंटर की Additional RAM में जमा होती है। फिर प्रिंटर द्वारा अनेक पृष्ठों को एक-एक कर उन फोंट में मुद्रित किया जाता है।

कुछ पोस्टस्क्रिप्ट लेजर प्रिंटरों में उनके EPPROM में कुछ (लगभग 128 तक) फोंट्स पहले डाउनलोड (pre-download) करने की भी सुविधा होती है। जिससे पहले सिर्फ एकबार फोंट डाउनलोड करना पड़ता है। हरेक प्रिंट जॉब के साथ फोंट बारम्बार भेजने की जरूरत नहीं पड़ती। केवल (text तथा ग्राफिक्स) प्रिंटर को सम्प्रेषित होते हैं और अत्यन्त शीघ्र गति से छपाई हो पाती है।

चूँकि भारतीय भाषाओं में केवल OT Font से पाठ का सुधार-सम्पादन (Processing/Editing) आदि नहीं किया जा सकता। संसाधन, सार्टिंग, सर्चिंग, एडिटिंग आदि केवल युनिकोड के मूल कूटों में ही सम्भव है। वर्णखण्डों(Glyphs) के सहारे तो वर्णक्रमानुसार छँटाई भी कर पाना असम्भव है। OT फोंट्स द्वारा केवल पारम्परिक रूप में स्क्रीन पर प्रदर्शन तथा मुद्रण ही किया जा सकता है। इन दोनों के बीच आपरेटिंग सीस्टम् के Rendering Engine को on-the-fly twist करते हुए अनवरत कार्य करना पड़ता है।

जबकि Laser Printer, Color Separator, Image-setter, Film/Transparency/Tracing-printer, plate-maker आदि उपकरणों में केवल फोंट डाउनलोड किए जा सकते हैं, क्योंकि ये कम्प्यूटर नहीं हैं, जो इनमें आपरेटिंग सीस्टम का rendering engine भी डाउनलोड किया जा सके। अतः जब इनमें हिन्दी तथा भारतीय भाषाओं का युनिकोडित पाठ (Text) पहुँचता है तो वह या तो OT फोंट में निहित सिर्फ encoded characters में बदल कर रह जाता है, या फिर केवल un-encoded glyphs में बदल जाता है। या तो हर मात्रा के पूर्व बाद खाली बक्से (Blank Boxes) या शून्याकार (outline circle) प्रकट होंगे या शब्दों का क्रम बदल जाएगा (जैसे "किस्त" के स्थान पर "कस्ति" छपेगा। इस प्रकार गलतियाँ होने से प्रकाशक/मुद्रक को हजारों रुपये का नुकसान हो जाएगा। उदाहरण के लिए फॉयरफॉक्स (Firefox 2.0.0.6) ब्राउजर से द्वारा खोला गया वर्डप्रेस का एक ब्लॉग का स्क्रीनशॉट निम्नवत् है--

प्रश्न : Adobe के Dreamweaver जैसे सॉफ्टवेयरों में युनिकोड में हिन्दी तथा भारतीय भाषाओं में भली भाँति वेबपृष्ठ डिजाइनिंग एवं होस्टिंग की जा रही है, फिर InDesign और फोटोशॉप में क्यों नहीं?

उत्तर : Dreamweaver, IE, Firefox, Netscape, MS-Frontpage आदि सभी इण्टरनेट ब्राउजर/वेब-डिजाइनर/डेवलपर सॉफ्टवेयर प्रोग्राम युनिकोड के 8-बिट रूपान्तर UTF-8 में ही सारी प्रोसेसिंग करते हैं। जो 16-बिट युनकोड का 8-बिट फॉर्मेट है। इसमें युनिकोड के 2-बाइट वाले कूट (अंग्रेजी के मूल अक्षरों के बाद शेष सभी कूट) 3 या 4 बाईट्स में बदलकर प्रकट होते हैं। 8-बिट के साथ तालमेल के लिए हर वर्ण/अक्षर के साथ एक या दो अतिरिक्त बाईट जुड़ जाती है। कोई भी ब्राऊजर सीधे 16 बिट या 2 बाईट युनिकोड का उपयोग नहीं करता। UTF-8 को दूसरे शब्दों में कहें तो यह 8-बिट ASCII का ही एक विशेष रूप है। जो 16-बिट कूट को कई टुकड़ों में बाँट कर संसाधित करता है।

जबकि MS word इत्यादि वर्ड प्रोसेसिंग सॉफ्टवेयर तथा InDesign, Scribus, Photoshop इत्यादि पैकेज का संचालन यदि UTF8 कूटों (3 या 4 बाईट वाले अक्षरों) में चलाया तो इनके संचालन पर और भी ज्यादा-भार पडे़गा और समग्र कार्य अत्यन्त जटिल तथा जोखिमपूर्ण हो जाएँगे। अतः युनिकोड का निम्नतम रूप 2-बाईट में ही प्रोसेसिंग अपेक्षित रूप से सुविधाजनक है।

UTF7, UTF8, UTF16, UTF32 आदि पर अलग लेख में विस्तार से प्रकाश डाला जाएगा।

प्रश्न : इस समस्या का समाधान क्या होगा?

उत्तर : यह ज्वलन्त समस्या सन् 2000 से चली आ रही है। इसके समाधान हेतु विश्वस्तर पर अनेक संस्थान अलग-अलग ढंग से सोच रहे हैं तथा दिनों दिन शोध जारी है। इनके समाधान के लिए मेरे सुझाव निम्नवत् हैं--

(1) Rendering Engine का समर्थन

Adobe, Macromedia, Quark आदि कम्पनियों द्वारा आपरेटिंग सीस्टम के Rendering Engine (यथा माईक्रोसॉफ्ट के Uniscribe, USP, लिनक्स के Pango इत्यादि) का समर्थन/सहयोग लेकर युनिकोड कूटों में पाठ संसाधन (Text processing) की जाए, (भले ही इसके लिए उन्हें अतिरिक्त रॉयल्टी आदि का भुगतान करना पड़े) किन्तु प्रिंट कमाँड या छपाई-पूर्व (pre-press) कार्यों के लिए डिजाइनकृत-पृष्ठ को भेजने के पूर्व सारा पाठ OT Fonts के Glyphs में यथा-आवश्यक क्रम में परिवर्तित कर दिया जाए। हिन्दी तथा भारतीय भाषाओं में इस कार्य के लिए विशेष ध्यान देते हुए एक विशेष प्रोग्राम का विकास किया जाए, जो OT Fonts में वर्णखण्ड-स्थानान्तरण (Glyphs-substitution) तथा वर्णखण्ड-क्रम-संस्थापन (Glyph positioning), Pre-base, Post-base आदि का सहारा लेते हुए युनिकोड वर्णक्रम वाले पाठ को Glyphs के क्रम में बदल कर प्रिंटर में प्रेषित करे।

उदारहण के लिए - युनिकोड कूटों का क्रम तथा पारम्पिरक रूप में देवनागरी पाठ का प्रदर्शन करने के लिए OT Font में Glyphs क्रम में अन्तर जानने के लिए 2 शब्द लें "स्थिर कार्यों"

इनका युनिकोड क्रम निम्नवत् है।

किन्तु इसका OT Font में Glyph क्रम निम्नवत् होगा-

उपर्युक्त दो शब्दों में आप स्पष्ट देख सकते हैं कि कूट-क्रम (Code-sequence) और वर्णखण्ड-क्रम (Glyph sequence) में कितना अन्तर है। कूटांक(Unicode Codes) का चौथा वर्ण (छोटी इ की मात्रा) वर्णखण्ड में पहले स्थान पर स्थानान्तिरित करना पड़ता है। कूटांक का 9वाँ+10वाँ+13वाँ वर्ण (आधा-र या मूल 'र्' व्यञ्जन) जो 'य' के पहले है, वह एकाकार होकर 'रेफ+अनुस्वार' के रूप में प्रकट होता है और उसे वर्णखण्ड में 10वे स्थान पर 'यो' के बाद स्थानान्तरित (Shift) करना पड़ता है। इसी जटिल तकनीक को ही Glyph substitution तथा Glyph positioning के नाम की कमाँड-शृंखला में ओपेन टाइप फोंट के निर्माण में प्रयोग करना पड़ता है।

लेकिन इस अति जटिल प्रक्रिया में कई प्रकार की त्रुटियों की सम्भावना तथा मुद्रित पाठ के बिगड़ने की आशंका काफी ज्यादा होती है।

(2) युनिकोड में सभी अक्षरों के कूट-निर्धारित किए जाएँ

युनिकोड-वर्सन-5.0 में हिन्दी(देवनागरी) के कुछ वर्णों, मात्राओं, अक्षरों, चिह्नों आदि को मिलाकर सिर्फ कुल 109 कूट-निर्धारित तथा मानकीकृत किए गए हैं। जबकि युनिकोड चीनी-जापानी-कोरियाई (CJK) भाषा में 29,245 मूल अक्षरों है तथा बाद में CJK 2-अतिरिक्त ब्लॉक में 71,578 युनिफाइड आईडियोग्राफ्स का कूट-निर्धारण किए जा चुके हैं। अतः इसी प्रकार युनिकोड इण्डिक के सभी पूर्ण अक्षरों (syllables) के भी कूट-निर्धारण एवं मानकीकरण करने की मांग कई मंचों से कई वर्षों से उठाई जाती रही है।

हाल ही में विश्व हिन्दी सम्मेलन में भी यह मुद्दा उठाया गया था। कई वर्षों से यह मुद्दा युनिकोड की अनेक अन्तर्राष्ट्रीय बैठकों में उठाया जाता रहा है। युनिकोड के एक प्रतिनिधि इस पर राजी भी हुए थे और उन्होंने कहा था कि यदि वर्तमान 16-बिट युनिकोड में यदि इसके लिए "कूट-स्थान" (65536 code-space) कम होते है तो वे 32-बिट युनिकोड का भी निर्धारण कर सकते हैं, जिसमें कुल स्थान 4294967296 तक उपलब्ध हो सकेंगे।

किन्तु यह कार्य इतना सरल नहीं है, लगभग असम्भव ही कहिए।

(3) ओपेन टाइप फोंट में सभी पूर्ण अक्षर बनाकर रखे जाएँ

वर्तमान इण्डिक युनिकोड में जितने वर्णादि मानकीकृत हुए है, सिर्फ उन्हीं में सीमित रहते हुए भी ओपेन टाइप फोंट स्तर पर ही इसका समाधान किया जा सकता है। पुराने 8बिट TTF फोंट्स में अधिकतम 256-32 = 224 फोंट्स ही शामिल किए जाने की सीमा थी। किन्तु ओपेन टाइप फोंट में ऐसी कोई सीमा निर्धारित नहीं है। 16-बिट होने के कारण एक ही फोंट में अधिकतम 65536 युनिकोडित कूटों के वर्णों को तथा निजी-क्षेत्र (Private Area) में इसके दुगुने अकूटित (non-encoded) वर्णखण्डों या संयुक्ताक्षरों को भी बनाकर शामिल किया जा सकता है। यदि हिन्दी(देवनागरी) के सभी पूर्णाक्षरों (syllables) को बनाकर ओपेन टाइप फोंट में शामिल कर लिया जाए तो कम्प्यूटर की आन्तरिक प्रोसेसिंग के लिए किसी Rendering Engine पर निर्भर नहीं होना पड़ेगा या उसके समर्थन के बिना भी सिर्फ फोंट स्तर पर ही हिन्दी से पाठ को पारम्पिरक रूप में प्रदर्शन व मुद्रण भली भाँति किया जा सकता है।

वर्तमान एक आम हिन्दी ओपेन टाइप फोंट (उदाहण के लिए Raghindi.ttf) में 109 युनिकोडित कूटों के वर्णों, मात्राओं, चिह्नों के अलावा अकूटित वर्णखण्डों (non-encoded glyphs), संयुक्ताक्षरों (conjucts), वर्णों के वैकल्पिक प्रारूपों(alternative forms) को मिलाकर लगभग 740 Glyphs को शामिल किया गया है। कुछ संस्कृत के विशिष्ट देवनागरी ओपेन टाइप फोंट्स में लगभग 1100 Glyphs की डिजाइन करके उपलब्ध कराया गया है।

किन्तु अभी तक देवनागरी तथा किसी भी अन्य भारतीय लिपियों के ओपेन टाइप फोंट में लिपि में प्रयुक्त होनेवाले अधिकांशतः प्रयोग में आनेवाले अक्षरों (syllables) को भी बनाकर भी शामिल नहीं किया गया है, लिपि के समस्त अक्षरों को शामिल करना तो दूर की बात है।

Adobe के द्वारा भी भारतीय भाषाओं के लिए ऐसे ही कुछ विशेष-फोंट बनाने की योजना पर भी विचार चल रहा था।

माईक्रोसॉफ्ट के लिए Arial Unicode MS.TTF फोंट के निर्माता एवरटाइप के एक प्रतिनिधि ने एक परिचर्चा में भारतीय भाषाविदों से कहा था वे हिन्दी (देवनागरी) के सभी अक्षरों वाले फोंट को बनाकर आपूर्ति करने का जिम्मा लेने के लिए तैयार हैं। उन्होंने इसके लिए हिन्दी(देवनागरी) के सभी अक्षरों(syllables) की सूची बनाकर यथाशीघ्र देने को कहा था। लेकिन दुःख की बात है कि इतने वर्ष बीत जाने के बाद आजतक भी हिन्दी(देवनागरी) के विद्वान उन्हें सारे अक्षरों (syllable) की सूची भेजना तो दूर की बात, अक्षरों(syllables) की कुल संख्या तक नहीं बता पाए हैं।

इसी सम्बन्ध में मैंने एक ज्वलन्त मुद्दा उठाया था- नारद अक्षरग्राम परिचर्चा फोरम में हिन्दी(देवनागरी) में कुल कितने अक्षर हैं? लेकिन दुःख की बात है लगभग 800 हिन्दी के ब्लॉग-लेखक तथा विद्वान होने के बावजूद अभी तक इस मंच पर सिर्फ 4 उत्तर मिले, और एक भी सन्तोषजनक नहीं, कुछ व्यावहारिक शोध व कार्य होना तो दूर की बात है। यह सभी हिन्दी विद्वानों तथा हिन्दी प्रेमियों के लिए एक चुनौती है। आह्वान है हिन्दी के माई का लालों का, जो यह सूची पूरी करने में सहयोग दें!

(4) रेण्डरिंग इंजन को मुक्तस्रोत करके जारी किया जाए

यदि उपर्युक्त दोनों उपाय या दोनों कार्य कठिन हैं तो एक और उपाय का सुझाव निम्नवत् है--

Uniscribe आदि सभी मालिकाना (propritory) unicode rendering engine को भी Pango की तरह मुक्त स्रोत बनाया जाए तथा मानकीकृत करके Unicode CLDR (Common Local Data Repository) के साथ निःशुल्क रूप से सभी IT-developers को उपलब्ध कराया जाए। जिससे सभी प्लेटफॉर्म तथा सॉफ्टवेयरों में युनिकोडित भारतीय पाठ का प्रदर्शन व मुद्रण एकरूपी हो सके।

(5) हिन्दी(देवनागरी) को सरल, सपाट और एकमुखी बनाया जाए

यदि उपर्युक्त सभी सुझावों का अनुपालन सम्भव नहीं हो, तो अन्तिम उपाय है कि हिन्दी-देवनागरी (तथा अन्य भारतीय लिपियों) के क्रम-विकास के मूल में जाकर शोध किया जाए तथा कम्प्यूटर तथा तकनीकी कार्यों के अनुकूल एक-आयामी सीधी, सरल सपाट लिपि का पुनरुद्धार, विकास तथा प्रचलन किया जाए।

जैसे अंग्रेजी में मुद्रण/प्रकाशन के लिए अलग अक्षर होते हैं,

मोनोस्पेस्ड (Capital and Small plain alphabets for Printing)

तथा

हस्तलिपि के लिए अलग अक्षर होते हैं,

(Cursive Script alphabets)

उसी प्रकार हिन्दी (देवनागरी) लिपि के लिए भी प्रकाशन/मुद्रण/कम्प्यूटर-डैटाबेस-प्रोसेसिंग के लिए अलग वर्ण-समूह तथा हस्तलिपि में कागज पर लिखने के लिए अलग वर्ण-समूह का विकास तथा प्रचलन किया जाए।

परम्परागत रूप से हाथ से लिखे जानेवाले लिपि-स्वरूप में ही मैनुअल-टाइपराइटरिंग/कम्प्यूटर/मुद्रण आदि करने के लिए बेतुका दबाब न डाला जाए।

कई वर्षों से इस दिशा में काफी प्रयास किए जा रहे हैं। वैदिक संस्कृत (Vedic Sanskrit) के लिए युनिकोड मानकों के मसौदे 2002 में जारी किए गए थे, जिनके चार्ट-1 में हिन्दी(देवनागरी) के मूल व्यंजन-वर्णों के कूट-निर्धारण(encoding) हेतु भी प्रस्ताव था। किन्तु हिन्दुस्तान का दुर्भाग्य है कि कुछ तथाकथित भारतीय विद्वानों के द्वारा आधारहीन तर्क तथा आपत्ति के कारण यह कार्य फिलहाल अवरुद्ध है।

जबकि मूलतः हिन्दी(देवनागरी लिपि) तकनीकी दृष्टि से भी अंग्रेजी से भी ज्यादा सरल, सपाट, एकमुखी और पूर्णतः ध्वनिवैज्ञानिक थी, जो कालक्रम में गलत प्रयोगों के कारण आज जटिल से जटलितम बन गई है। क्योंकि भाषा तथा लिपि में आए किसी विकार को भी विकास ही माना जाता है। इस बारे में एक अलग लेख में विस्तार से प्रकाश डाला जाएगा।

(6) जटिल से और जटिलतम अलगोरिदम बनाए जाएँ

अन्तिम उपाय के रूप में विभिन्न सूक्ष्म कम्प्यूटर प्रोग्रामों, जटिल से जटिलतम अलगोरिद्‍म्स के माध्यम से तकनीकी स्तर ही कोई मध्यवर्ती "येन-केन-प्रकारेण"(Any how) उपाय विकसित किया जाए। जैसा कि फायरफॉक्स 3.0 में, Padma Addon में, Font-code-converters आदि में प्रयोग किया जा रहा है। ये परिवर्तक इतने जटिल क्यों होते हैं और इनके द्वारा 100% सही परिणाम की आशा करना क्यों कठिन है, इस बारे में विस्तार से अलग लेख में प्रकाश डाला जाएगा।

7. Adobe InDesign के लिए plug-in

हर्ष की बात है कि हाल ही में श्री पीयूष तूलि peeyush@metadesignsolutions.com ने एक प्लग-इन का विकास किया है, जो एडोबे इनडिजाइन में हिन्दी को पारम्परिक रूप में प्रकट करने तथा मुद्रित करने की सुविधा प्रदान करता है। इसका डिमो उन्होंने इस यूट्यूब पते पर रखा है, जिसे देख सकते हैं:

<http://in.youtube.com/watch?v=EVxD4ZsqwV8>

इस सम्बन्ध में पूर्व-सन्दर्भ हेतु निम्नलिखित कड़ियों के आलेख देख सकते हैं-

विण्डोज-98 में युनिकोड सक्षमता लाना

इण्टरनेट में हिन्दी : समस्याएँ एवं सम्भावनाएँ

इनस्क्रिप्ट की-बोर्ड ले-आऊट की समस्याएँ

प्रगत भारत

23 Aug 2007

सावधान! परोक्ष धूमपान अधिक खतरनाक

20 Aug 2007

रोमन लिप्यन्तरण हेतु मानकों का निर्धारण भाग-2

18 Aug 2007

लड़का या लड़की मनचाही सन्तान प्राप्ति का सहज उपाय

17 Aug 2007

हिन्दी श्रुतलेखन सॉफ्टवेयर उन्मोचित

14 Aug 2007

वैदिक संस्कृत स्वर चिह्नों का यूनिकोड मानकीकरण

13 Aug 2007

भाषा कुञ्जीपटल बदलने हेतु बेहतर कुञ्जी

7 Aug 2007

डीटीपी व ग्राफिक्स सॉफ्टवेयरों में भारतीय युनिकोड अनुकूलता

इस चिट्ठे पर नए पोस्ट की सूचना पाने के लिए अपना ईमेल पता यहाँ सबस्क्राईब करें

जय जगन्नाथ

अतिथि स्वागतम्

विषय-श्रेणियाँ

मासिक संग्रहीत Blog Archive

मेरे बारे में...

सर्वाधिकार सुरक्षित

महत्वपूर्ण कड़ियाँ

ब्लॉगवाणी

ब्लॉगअड्डा