15 Feb 2007

इण्टरनेट में हिन्दी : समस्याएँ एवं सम्भावनाएँ

आज सूचना प्रौद्योगिकी के इस युग में कम्प्यूटर और इण्टरनेट के अनुकूल हुए बिना किसी भाषा या लिपि के अस्तित्व पर प्रश्नचिह्न लग जाएगा। युनिकोड कोन्सोर्टियम (http://www.unicode.org/) द्वारा सूचना विनिमय के लिए अन्तर्राष्ट्रीय मानक-कूट निर्धारित किए जाने के बाद संसार की लगभग सभी लिखित लिपियों के अक्षर-चिह्नों को अनुपम पहचान मिल गई है और अब ये सूचना विनिमय के लिए अमेरिकी मानक कूटों (ASCII) के सबसेट कोडपेज पर आश्रित नहीं हैं। हिन्दी एवं अन्य भारतीय भाषाओं के लिए भी युनिकोड मानक कूट निर्धारित हो चुके हैं तथा सभी कम्प्यूटर प्रचालन प्रणालियों, इण्टरनेट सेवा प्रदाताओं, वेबसाइट होस्टिंग करनेवाली संजाल-संस्थाओं द्वारा कार्यान्वित किए जा रहे हैं। इससे हिन्दी भाषा एवं देवनागरी लिपि में विश्व-संचार का मार्ग प्रशस्त हुआ है। हिन्दी में वेबसाइटों, ब्लॉग, ईमेल-समूह, ऑन-लाइन-परिचर्चा-समूह आदि की संख्या दिनोंदिन बढ़ती जा रही है तथा भारी मात्रा में साहित्य तथा सूचना सामग्री इण्टरनेट पर आम व्यक्ति को हिन्दी में भी उपलब्ध हो रही है। संसार भर के लोग एक-दूसरे को वेबमेल पोर्टलों तथा चर्चा समूहों के माध्यम से भी हिन्दी में ई-मेल सन्देश भेज रहे हैं।अनेक हिन्दी पुस्तकें और रोचक साहित्य, कविताएँ, ज्ञान-विज्ञान की सूचनाएँ हिन्दी में भी इण्टरनेट पर मिल रही हैं। अनेक हिन्दी अखबारों के भी वेब-एडिशन इण्टरनेट पर उपलब्ध हैं।

अब हिन्दी तथा अन्य भारतीय भाषाओं में भी मोबाईल फोन पर संक्षिप्त सन्देश (SMS) की सुविधा उपलब्ध हो गई है। भारत सरकार के राजभाषा विभाग द्वारा सी-डैक के सहयोग से प्रस्तुत किए गए ऑन-लाइन हिन्दी प्रशिक्षण के पाठ्यक्रम मोबाईल फोन पर भी उपलब्ध कराए गए हैं।

इससे अन्तर्राष्ट्रीय स्तर पर हिन्दी का महत्त्व बढ़ा है और अनेक देशों के लोग इण्टरनेट पर विभिन्न वेबसाइटों और ई-मेल समूहों के माध्यम से हिन्दी सीख रहे हैं तथा हिन्दी में अपने विचारों का आदान-प्रदान कर रहे हैं। हिन्दी से जुड़ी समस्याओं के बारे में परस्पर चर्चा करके समाधान पाते हैं।

विश्व के प्रसिद्ध ज्ञानकोश एन्साईक्लोपीडिया के अनुरूप इण्टरनेट पर ऑनलाइन बहुभाषी ज्ञानकोश में "http://hi.wikipedia.org/wiki/" तथा "http://wikisource.org/wiki/हिन्दी" वेबसाइटों पर समग्र हिन्दी ज्ञानकोश निःशुल्क रूप से सर्वसुलभ कराने का कार्य स्वयंसेवकों द्वारा जारी है। 10 सितम्बर 2006 तक विभिन्न ज्ञान-विज्ञान के विषयों पर 1716 संख्यक हिन्दी लेख विकिपीडिया में उपलब्ध थे। विकि की सबसे बड़ी विशेषता यह सबके लिए मुक्त है तथा कोई भी व्यक्ति इसमें कोई नया पाठ जोड़ सकता है तथा उपलब्ध पाठ को बिना किसी रोक-टोक के सुधार भी सकता है। इसलिए यह विकास के लिए उन्मुक्त है और निरन्तर इस ज्ञानकोश की सामग्री बढ़ती तथा सुधरती जा रही है।

इसी प्रकार विभिन्न भाषाओं की लिपियों के पाठों को दूसरी भाषा की लिपि में बदलने के लिए भी कुछ ऑन-लाइन प्रोग्राम उपलब्ध हो गए हैं। सिर्फ एक क्लिक करते ही देवनागरी से अन्य भारतीय भाषाओं में और इसके विलोमतः बदलनेवाला एक ऑनलाइन प्रोग्राम भी "http://www.devanaagarii.net/hi/girgit/" वेबसाइट पर श्री आलोक कुमार जी द्वारा उपलब्ध कराया गया है। हालांकि इसमें कुछ खामियाँ हैं, जिनके समाधान का प्रयास जारी है।

भारत के सूचना प्रोद्योगिकी मन्त्री माननीय मारन जी की पहल पर हिन्दी सॉफ्टवेयरों के संकलन की एक सीडी भी निःशुल्क जारी की जा चुकी है। ये www.ildc.in/hindi/Hindex.aspx पर भी उपलब्ध हैं, जो एक स्तुत्य प्रयास है। किन्तु इनमें अधिकांश ओपेन सोर्स नहीं हैं और इनमें कुछ त्रुटियाँ/भूल पाई गई हैं, जिनका अगले संस्करणों में सुधार किया जाएगा। इनमें लिखित हिन्दी पाठ को बोलकर सुनाने के लिए "वाचक" नामक सॉफ्यवेयर भी शामिल है। 'लिनक्स' एक मुफ्त और मुक्त-कूट कम्प्यूटर प्रचालन प्रणाली है, कोई भी प्रोग्रामर इसमें कुछ सुधार करके अपना योगदान कर सकता है। जिससे इसका विकास दिन दूना रात चौगुना बढ़ता जा रहा है।

लिनक्स के विश्व की अनेक भाषाओं में रूपान्तरण हो चुके हैं। हिन्दी में भी सम्पूर्ण प्रदर्शन, मीनू, सहायता सहित विभिन्न निवेश सन्देश आदि उपलब्ध हो चुके हैं। http://www.indlinux.org/" वेबसाइट से इसके हिन्दी रूपान्तरणों को निःशुल्क डाउनलोड किया जा सकता है।

युनिकोड-मानक-कूटों के प्रचलन के बाद हिन्दी तथा देवनागरी लिपि का भूमण्डलीकरण हो गया है तथा अन्तर्राष्ट्रीय मञ्च पर भारत भी अपनी भाषायी भूमिका निभाने में काफी हद तक सफल हो रहा है।युनिकोड एक 16-बिट का मानक है जिसमें संसार की लिखित लिपियों के जिनमें कुल 65536 अक्षरों, मात्राओं, चिह्नों आदि का कूट-निर्धारण हो सकता है। इतने में संसार की लगभग सभी भाषाओं के मूल वर्ण आ जाते हैं। जबकि 8-बिट होने के कारण पुराने एस्की (ASCII) आधारित कोडपेज में अधिकतम 256 कूट ही निर्धारित हो पाते थे। इसलिए हिन्दी के अक्षर-कूट अंग्रेजी के अक्षरों के ऊपर पैबन्द की तरह चिपकाकर काम चलाना पड़ता था।

लेकिन इण्टरनेट के क्षेत्र में वर्तमान हिन्दी तथा भारतीय भाषाओं में कुछ तकनीकी समस्याएँ अभी भी सामने मुँह बाए खड़ी हैं, जिनके समाधान के लिए विशेष ध्यान दिया जाना जरूरी है।

इनमें से कुछ प्रमुख हैं:

जटिल प्रक्रिया

हिन्दी की 'देवनागरी' लिपि के मूल अक्षरों (स्वर एवं व्यंजन) की कुल संख्या सिर्फ 49 है। आश्चर्य की बात है कि फिर भी हिन्दी (तथा भारतीय भाषाओं -Indic) को जटिल भाषाओं (Complex Languages) की श्रेणी में रखा गया है। जबकि जापानी-चीनी-कोरियाई (CJK) तीन विशाल राष्ट्रों की संयुक्त लिपि, जिसके 25000 से ज्यादा अक्षरों को युनिकोड में कूट-निर्धारित (encoded) किया गया है, को अपेक्षाकृत सरल लिपि कहा जाएगा।

इसका कारण है: मूल अक्षरों के बायें, दायें, ऊपर, नीचे लगनेवाली मात्राओं, संयुक्ताक्षरों, वर्ण का संरेखण-क्रम कभी बायें से दायें तथा कभी ऊपर से नीचे होने तथा कुछ अतार्किक और अवैज्ञानिक प्रयोग के कारण प्रचलित रूप में पाठ का प्रदर्शन (rendering) काफी जटिल होता है।

इसका प्रमुख कारण है कि युनिकोड मानक-कूटों में मूल अक्षरों और मात्राओं को ही स्थान दिया गया है। संयुक्ताक्षरों तथा बारह-खड़ी (मात्रायुक्त वर्ण) को प्रकट करने के लिए कम्प्यूटर के आन्तरिक संसाधन हेतु जटिल दोमुँही प्रक्रियाएँ अपनानी पड़ती हैं। कम्प्यूटर में देवनागरी डैटा का भण्डारण एवं संसाधन सिर्फ मूल कूटाक्षरों (Encoded characters) में होता है, जबकि परम्परागत रूप में संयुक्ताक्षरों आदि को प्रकट करने तथा मुद्रण के लिए ओपेन टाइप फोंट्स का उपयोग करना पड़ता है। देवनागरी लिपि के लिए ओपेन टाइप फोंट्स में अनेक जटिल नियमों का उपयोग करना पड़ता है, जिनमें प्रमुख हैं : वर्णखण्डों के पुनःस्थापन (glyph positioning) तथा वर्णखण्डों के विकल्पन (glyph substitution) की प्रक्रियाएँ।

अधिक लागत

16 बिट कूट होने के कारण युनिकोड कूटों के पाठ व डैटा को पुराने आपरेटिंग सीस्टम् वाले कम्प्यूटर कार्यान्वित नहीं कर पाते। विण्डोज एक्सपी के बाद तथा लिनक्स आदि में भी यूनीकोड पूरी तरह कार्यान्वित करने में कई तरह की समस्याएँ हैं। युनिकोड को सही रीति लागू करने के लिए कम्प्यूटर की क्षमता, स्पीड, मेमोरी, हार्डडिस्क, प्रोसेसर सभी का आधुनिकीकरण करना होगा, अर्थात लगभग पूरा कम्प्यूटर और आपरेटिंग सीस्टम बदलना होगा, जिसमें भारी लागत आती है।

महंगा होना

युनिकोड पाठ व डैटा एस्की डैटा की तुलना में दुगुना स्थान घेरता है। यूनीकोड को पुरानी 8 बिट कम्प्यूटर प्रणालियों के मध्य तालमेल आवश्यकता के मद्देनजर इसके 8-बिट प्रतिबिम्ब रूपक यूटीएफ-8 कूट निर्धारित किए गए हैं। लेकिन इसमें एक अक्षर एक बाईट से वजाए तीन से चार बाईट का स्थान घेरता है। जिससे पाठ का आकार तीन से चार गुना हो जाता है।

उदाहरण के लिए मोबाइल फोन पर अंग्रेजी में भेजे गए 150 अक्षरों तक के एक लघु सन्देश (SMS) की लागत (भारत संचार निगम की तत्कालीन दर अनुसार) एक रुपया होती है। किन्तु हिन्दी में 150 अक्षरों तक के एक लघु सन्देश की लागत 3 से 4 रुपये तक आएगी। एक हिन्दी लघु सन्देश 3 या 4 सन्देशों में विभाजित होकर प्रेषिती के मोबाइल में पहुँचता है। क्योंकि हिन्दी सन्देश यूटीएफ-8 (UTF8) कूटों में बदलकर सम्प्रेषित होते हैं और हिन्दी का एक अक्षर (syllable) एकाधिक वर्णों (Alphabet) से मिलकर बना होता है। इस प्रकार हिन्दी का प्रयोग उपयोगकर्ता का काफी महंगा पड़ता है। अतः लोग रोमन लिपि में सन्देश भेजने को प्राथमिकता देते हैं। आज के भागम् दौड़ के युग में लोग कम से कम अक्षरों में अपने भाव व्यक्त करते हैं। जैसे : How are you? के बदले
"How r u" लिखा जाने लगा है।

हिन्दी ई-मेल सन्देशों का पाठ विकृत हो जाना:

युनिकोड कूटों में सम्प्रेषित हिन्दी ई-मेल सन्देश अक्सर अन्य कूटों में विकृत होकर मिलते हैं। उदाहरण के लिए यदि किसी ने एक सन्देश में तीन अक्षर (कखग) 16 बिट शुद्ध युनिकोड में लिखकर भेजे हैं। तो वह प्रेषिती के पास कभी यूटीएफ-8-कूट में बदलकर यों ( कखग) प्रकट होता है। तो कभी वेब प्रोग्रामिंग भाषा एचटीएमएल के दशमलव कूटों में बदलकर (जैसे "कखग" के बदले "कखग") प्रकट होता है तो कभी प्रश्नवाचक चिह्न बनकर (???) प्रकट होता है, तो कभी अन्य कूटों में बदल कर हिन्दी सन्देश कूड़ा-करकट जैसे प्रकट होते हैं। जिससे भारी समस्या पैदा होती है। सन्देश प्राप्तकर्ता परेशान होकर रोमन लिपि में हिन्दी सन्देश भेजने को मजबूर होते हैं। इसका कारण है विभिन्न वेब-पोर्टाल एवं ई-मेल सेवा प्रदाताओं ने अभी तक युनिकोड/यूटीएफ8 को डिफॉल्ट रूप में पूर्व-निर्धारित करने के लिए उपयोक्ता को कोई विकल्प प्रदान नहीं किया है। लेकिन प्रसिद्ध इण्टरनेट सर्च इंजन गूगल द्वारा प्रदान की जा रही "gmail.com" द्वारा उपयोक्ताओं को डिफॉल्ट रूप में सन्देश यूटीएफ-8 रूप में भेजने का विकल्प प्रदान किया है। जिससे जीमेल से भेजी गई हिन्दी ई-मेल सही रूप में प्रकट होती है। सभी ई-मेल सेवा-प्रदाताओं को ऐसे विकल्प प्रदान करना चाहिए, लेकिन इसमें और कुछ वर्षों का समय लग सकता है।

मुक्त कूट या मुफ्त न होना :

विभिन्न कम्प्यूटर सॉफ्टवेयर विशेषकर माइक्रोसॉफ्ट विण्डोज के प्रोग्रामों के सोर्स कोड उपयोगकर्ताओं के लिए उन्मुक्त नहीं हैं। उपयोगकर्ता उनकी विशेषताओं में अपने अनुकूल कोई परिवर्तन या सुधार नहीं कर सकता। जिससे विकास सीमित रह जाता है। साथ ही सॉफ्टवेयर महंगे होने के कारण लोग इनकी अनुज्ञप्ति प्राप्त प्रति खरीद नहीं पाते हैं और उन्हें कोई अद्यतन करने की सेवा नहीं मिल पाती है। माईक्रोसॉफ्ट विण्डोज प्रचालन प्रणाली में युनिकोड को कार्यान्वित करनेवाला प्रोग्राम युनिकोड स्क्रिप्ट प्रोसेसर (USP.DLL) मुक्त कूट नहीं है, जिससे अन्य व्यक्ति इसमें ्अपने अनुकूल कोई सुधार नहीं कर पाते।

इसके विपरीत लिनक्स आपरेटिंग सीस्टम् का मुख्य अंश मुक्त कूट है जिसमें इसके सोर्स कोड भी सर्वसुलभ हैं। कोई भी प्रोग्रामर इसमें सुधार कर अपना योगदान कर सकता है। लेकिन इसका कोई मानक उपलब्ध नहीं होने के कारण इसके अनेक रूप उपलब्ध हैं, जिससे यह अभी इतना लोकप्रिय नहीं हुआ है।

डैटाबेस में वर्णक्रमानुसार छँटाई (sorting) तथा सूचकांकन (indexing) की समस्याएँ :

युनिकोड आधारित डैटाबेस प्रबन्धन और प्रोग्रामिंग में देवनागरी आँकड़ों/पाठ को वर्णक्रमानुसार छँाटने या इण्डेक्स बनाने पर डिफॉल्ट रूप में जो प्रतिफल मिलता है, वह भाषिकी प्रयोग की दृष्टि से सही नहीं हो पाता। इसका मुख्य कारण है-
शुद्ध व्यंजनों के मानक-कूट निर्धारित न होना

देवनागरी युनिकोड में शुद्ध व्यंजनों के लिए कोई कूट-निर्धारण नहीं किया गया है। बल्कि 'अ'कार-युक्त व्यंजन अक्षरों को ही शामिल किया गया है। जिससे देवनागरी जैसी सरल सपाट और ध्वनिविज्ञान की कसौटी पर सर्वोत्तम सक्षम लिपि को भी चीनी, जापानी, कोरियाई (CJK), अरबी, फारसी जैसे क्लिष्ट लिपियों (complex scripts) के वर्ग में दर्ज होना पड़ा है। इसके कारण हलन्त का उलटा प्रयोग करके शुद्ध व्यंजन प्रकट किए जाते हैं, जो तर्कसंगत नहीं होता। देवनागरी पाठ की इण्डेक्सिंग करने में काफी समस्याएँ सामने आती हैं। यह प्राकृतिक भाषा संसाधन (NLP) तथा बोली से पाठ (Speech to text) जैसे उन्नत कम्प्यूटर प्रयोगों के लिए भी जटिल समस्या बन गया है।

महंगा सदस्यता शुल्क

युनिकोड.ओर्ग (http://www.unicode.org/) का सदस्यता शुल्क भी काफी महंगा है (व्यक्तिगत सदस्य के लिए 300 डॉलर प्रतिवर्ष) और बिना सदस्य बने आपको कोई सुझाव या विकास या सुधार प्रस्ताव देने का कोई अधिकार नहीं मिलता। सिर्फ आप चर्चाओं में भाग ले सकते हैं, परन्तु वह वैध तौर पर स्वीकार या रिकार्ड नहीं किया जाता।

मुद्रण अनुकूल सुन्दर ओपेन टाइप फोंट्स का अभाव

हिन्दी युनिकोड के पाठ को पारम्परिक रूप में मात्राओं और संयुक्ताक्षरों में प्रकट करना ओपेन टाइप फोंट्स द्वारा ही हो पाता है। अभी तक भारतीय भाषाओं के लिए छपाई योग्य सुन्दर ओपेनटाइप फोंट्स पर्याप्त मात्रा में उपलब्ध नहीं हो पाए हैं। इसके कारण छपाई आदि
में पुराने ट्रू-टाइप 8-बिट वाले फोंट्स का ही सहारा लेना पड़ता है।मुद्रण-सज्जा सॉफ्टवेयर युनिकोड अनुकूल नहीं एडोबे पेजमेकर, फ्रेममेकर, फोटोशॉप, क्वार्क एक्सप्रेस, फ्रीहैण्ड, फ्लैश, कोरल ड्रा, आदि मुद्रण पूर्व पृष्ठसज्जा या डिजाइनिंग करनेवाले सॉफ्टवेयर अभी भी युनिकोड आधारित ओपेन टाइप देवनागरी फोंट्स की तकनीकी के अनुकूल नहीं हैं। इनमें युनिकोडित पाठ का हर अक्षर सिर्फ प्रश्नवाचक चिह्न (?) के रूप में प्रकट होता है। इसलिए छपाई के लिए युनिकोडित पाठ को फिर से 8-बिट वाले पुराने ट्रू-टाइप फोंट्स में परिवर्तित पड़ता है।

फोंट-कूट-परिवर्तक की त्रुटियाँ

भारत सरकार द्वारा अभीतक 8 बिट वाले पुराने देवनागरी फोंट्-कूटों का भी मानकीकरण नहीं हो पाया है। कुछ फोंट परिवर्तक सॉफ्टवेयर जरूर उपलब्ध कराए गए हैं, लेकिन वे मुक्त-स्रोत नहीं हैं और इनके द्वारा परिवर्तित पाठ में अनेक भूलें रह जाती हैं, जिससे दुबारा प्रूफ रीडिंग करनी पड़ती है। मानव श्रम घण्टों की बाबत करोड़ों रुपये की वार्षिक राष्ट्रीय हानि होती है। अतः जरूरी है कि ऐसा ओपेन सोर्स प्रोग्राम मुफ्त उपलब्ध कराया जाए, जो सिर्फ एक माउस-क्लिक मात्र करने पर विभिन्न फोंट्स आदि में संसाधित चुने गए (selected) पाठ को युनिकोड में तथा युनिकोड से आवश्यक पुराने 8 बिट फोंट में बिना किसी भूल के
बदल दे।

कम्प्यूटर पाठ्यक्रमों में 'हिन्दी' शामिल नहीं

भारत सूचना प्रौद्योगिकी उद्योग में अग्रणी स्थान पर है। प्रतिवर्ष देश को आई.टी. के खाते में अरबों रुपये का राजस्व प्राप्त होता है। किन्तु भारत के किसी भी कम्प्यूटर पाठ्यक्रम में आज तक सूचना विनिमय के लिए भारतीय मानक (ISCII) और अन्तर्राष्ट्रीय स्तरीय लिपि मानक (UNICODE) को भी एक विषय तक के रूप में शामिल नहीं किया गया है। हिन्दी में कम्प्यूटिंग तो दूर की बात है। जिसके कारण नए कम्प्यूटर आपरेटरों, प्रोग्रामरों, इंजीनियरों को सिर्फ US-English में ही प्रोग्रामिंग करना या डैटा प्रविष्ट करना आता है।

हाल ही में सेंट्रल ब्यूरो ऑफ सेकेण्डरी एजुकेशन (CBSE) के नए पाठ्यक्रम में ISCII और Unicode मानकों को एक विषय के रूप में शामिल किया गया है, जो एक स्तुत्य प्रयास है।

लेकिन भारत सरकार के सूचना प्रौद्योगिकी मंत्रालय के इलेक्ट्रॉनिकस् विभाग द्वारा प्रत्यायित कम्प्यूटर पाठ्यक्रमों (DOEACC) के 'ए', 'बी', 'सी' लेवल आदि किसी भी पाठ्यक्रम में न तो इस्की या युनिकोड का कोई विषय शामिल है, न ही हिन्दी में कम्प्यूटर में काम करने की जानकारी तक देने का कोई अध्याय। जबकि जनता द्वारा मांग की जाती रही है कि शिक्षा का माध्यम हिन्दी हो। सभी कम्प्यूटर प्रशिक्षण भी हिन्दी भाषा के माध्यम से भी प्रदान करने का विकल्प उपलब्ध होना चाहिए।

भारत सरकार के राजभाषा विभाग द्वारा केवल केन्द्रीय सरकारी कर्मचारियों को कम्प्यूटर पर हिन्दी में काम करने के संक्षिप्त पाठ्यक्रम चलाए जाते हैं, परन्तु आम जनता के लिए नहीं।

उपर्युक्त समस्याओं के समाधान हेतु प्रयास किए जा रहे हैं और इण्टरनेट के क्षेत्र में हिन्दी की व्यापक सम्भावनाएँ हैं और उज्ज्वल भविष्य नजर आ रहा है।

2 comments:

ePandit said...

बहुत ही शोध परक और प्रशंसनीय लेख है, इस पर तो टिप्पणी करने के लिए तसल्ली से समय चाहिए। वैसे टिप्पणी करने को बहुत कुछ है।

साधुवाद इस श्रेष्ठ लेख के लिए।

रवि रतलामी said...

हिन्दी चिट्ठा जगत् में आपका स्वागत है.

विस्तृत जानकारी परक आलेख. धन्यवाद.