Language Computing in Hindi / हिंदी में भाषिक कंप्यूटिंग

युनिकोड आधारित इंडिक लिपियों में अंतर्निहित समानता

----विजय कुमार मल्होत्रा, पूर्व निदेशक (राजभाषा) ,रेल मंत्रालय, भारत सरकार

<malhotravk@gmail.com>

यह एक ऐतिहासिक संयोग ही है कि कंप्यूटर का विकास सर्वप्रथम ऐसे देशों में हुआ, जिनकी भाषा मुख्यत:अंग्रेज़ी या रोमन लिपि पर आधारित कोई योरोपीय भाषा थी.कदाचित् यही कारण है कि रोमनेतर भाषाओं में कंप्यूटरसाधित भाषा संसाधन का कार्य कुछ देरी से आरंभ हुआ. इस बात में भी कोई संदेह नहीं कि रैखिक (linear) लिपि होने के कारण रोमन लिपि में सूचना संसाधन का कार्य अपेक्षाकृत सरल भी था. किंतु इस बात का कोई तकनीकी कारण नहीं है कि रोमन लिपि या अंग्रेज़ी भाषा कंप्यूटर संसाधन के लिए आदर्श समझी जाए. वस्तुत:कंप्यूटर की दो संकेतों की अपनी स्वतंत्र गणितीय भाषा है और उसी भाषा में वे हमारी भाषाओं को ग्रहण करके अपने सभी कार्य संपन्न करते हैं. इसलिए कंप्यूटर के लिए किसी भी भाषा को अपनाने में कोई तकनीकी बाधा नहीं है. वस्तुत: कंप्यूटर में सारी गणनाएँ केवल दो संकेतों (0 और 1) से होती हैं. केवल गणित ही नहीं, तार्किक कथनों को भी ‘हाँ’ या ‘नहीं’ के बीजगणित में ढाला जा सकता है. विभिन्न लिपियों के माध्यम से प्राकृतिक भाषाओं के पाठ के कुंजीयन के लिए द्वि-आधारी कोड ( binary code) बनाए गए हैं. रोमन लिपि के कोड को आस्की-7 कोड (ASCII अर्थात् American Standard Code for Information Interchange) कहा जाता है. इस 7 अंकीय कोड में रोमन लिपि के सभी अक्षर, अंक और विराम चिह्न समाहित हो जाते हैं. फ़्रांसीसी, जर्मन, इतालवी, पुर्तगाली, डच और स्पेनिश आदि रोमन-आधारित भाषाओं में प्रयुक्त सभी विशेषक चिह्नों ( diacritic marks) को भी इसमें समाविष्ट किया गया है. जैसे A के लिए आस्की-7 कोड में 8 बिट की 0 और 1 की यह गणना 01000001के रूप में निर्धारित की गई है. जैसे ही इसे डीकोडित किया जाएगा, यह A में परिणत हो जाएगा.

जिस प्रकार आस्की-7 कोड एक ऐसी कोडिंग प्रणाली है,जो सभी रोमन-आधारित भाषाओं को कंप्यूटर के स्मृति कोश में भंडारण या स्टोरेज के लिए विकसित की गई है, ठीक उसी प्रकार कंप्यूटर में सभी भारतीय भाषाओं के भंडारण या स्टोरेज के लिए इस्की-8 कोडिंग प्रणाली (ISCII अर्थात् Indian Standard Code for Information Interchange) की परिकल्पना की गई है. वस्तुत: यह आस्की-7 का ही विस्तृत रूप है. सच तो यह है कि आस्की-7 भी मूलत: 8 बिट की कोडिंग प्रणाली ही है, लेकिन उसके अंतर्गत रोमन लिपि के छोटे और कैपिटल अक्षरों, उसके विराम चिह्नों तथा अन्य रोमन-आधारित भाषाओं में प्रयुक्त सभी विशेषक चिह्नों को केवल 7 बिट में ही समाहित कर लिया गया है. हिंदी और अन्य भारतीय भाषाओं के लिए कोडिंग प्रणाली निर्धारित करते समय आई.आई.टी, कानपुर के वैज्ञानिकों के सामने निम्नलिखित दो बातें बहुत स्पष्ट थीं. पहली बात तो यह थी कि भारतीय भाषाओं के लिए निर्धारित की जाने वाली कोडिंग प्रणाली में रोमन लिपि के समावेश की सुविधा भी सहज रूप में उपलब्ध होनी चाहिए. साथ ही दूसरी बात यह थी कि रोमन लिपि के लिए विकसित क्वेर्टी कुंजीपटल में ही हिंदी और अन्य भारतीय लिपियों में टाइप करने की सुविधा उपलब्ध कराई जानी चाहिए, ताकि रोमन लिपि और भारतीय भाषाओं में परस्पर सह-अस्तित्व की भावना विकसित हो सके अर्थात् हिंदी व अन्य भारतीय भाषाओं और अंग्रेज़ी में साथ-साथ काम किया जा सके.

भारत की अनेक भाषाओं की लिपियाँ तो एक-दूसरे से इतनी भिन्न दिखती हैं कि उनमें समानता के अंतर्निहित सूत्र को खोजना भी सरल नहीं है. उदाहरण के लिए आर्यभाषाओं और द्रविड़ भाषाओं में इतना अंतर दिखाई पड़ता है कि यह विश्वास करना कठिन हो जाता है कि सभी भारतीय भाषाओं की लिपियों (उर्दू को छोड़कर) का उद्गम ब्राह्मी लिपि के समान स्रोत से हुआ है. यद्यपि इन भाषाओं के अक्षर ऊपरी तौर पर भिन्न-भिन्न दिखाई पड़ते हैं, लेकिन इनकी वर्णमाला और लिपि समान उच्चारण पद्धति पर आधारित है. उर्दू इसका अपवाद है, क्योंकि इसकी लिपि फ़ारसी-अरबी लिपि पर आधारित है.

यदि ऐतिहासिक दृष्टि से देखें तो अशोक काल से ही हमें उत्तर और दक्षिण भारत में ब्राह्मी लिपि का व्यापक उपयोग मिलने लगता है. चौथी शताब्दी के उत्तरार्ध में ब्राह्मी दो शैलियों में विभक्त हो गई, उत्तरी शैली और दक्षिणी शैली. उत्तर भारत की सभी परवर्ती लिपियाँ ब्राह्मी की उत्तरी शैली से और दक्षिणी भारत की सभी परवर्ती लिपियाँ ब्राह्मी की दक्षिणी शैली से विकसित हुईं. कालांतर में इन लिपियों में इतना अंतर आ गया कि बिना सीखे उत्तर वालों के लिए दक्षिण की किसी लिपि को पढ़ना संभव न रहा और इसीप्रकार बिना सीखे दक्षिण वालों के लिए उत्तर भारत की किसी लिपि को पढ़ना संभव न रहा. इस अंतर का प्रमुख कारण कदाचित् लेखन-सामग्री की भिन्नता भी रहा है. दक्षिण भारत में ताड़ वृक्षों की बहुलता के कारण लेखन-सामग्री के रूप में ताड़पत्रों का उपयोग किया जाता था और उस पर सीधे लिखने से ताड़पत्रों के फट जाने की आशंका रहती थी. इसलिए दक्षिण भारत में नोकदार सूखी कलम से वृत्ताकार रूप में लिखने की परंपरा विकसित हुई. इसके विपरीत उत्तर भारत में चपटी और खोखली कलम से वृत्त के बजाय ऊपर-नीचे की मात्राओं के साथ लिखने की परंपरा विकसित हुई. चौथी शताब्दी में ब्राह्मी की उत्तरी शैली से ‘गुप्त लिपि’ का जन्म हुआ. इसके अनेक वर्णों की आकृति देवनागरी के वर्णों से मिलती-जुलती है. गुप्त लिपि के वर्णों में शिरोरेखा का प्रयोग स्पष्ट रूप से मिलता है. छठी शताब्दी तक आते-आते गुप्त लिपि कुटिल लिपि में परिवर्तित हो गई और इसी कुटिल लिपि से अन्य अनेक आर्यभाषिक लिपियों के साथ-साथ देवनागरी लिपि का भी विकास हुआ. यह लिपि अपने उद्भव काल से ही सारे देश में प्रयुक्त होने लगी थी. इस प्रकार ब्राह्मी लिपि का वास्तविक राष्ट्रीय स्वरूप देवनागरी के रूप में अवतरित हुआ. आज भी विश्व भर में प्रकाशित संपूर्ण संस्कृत साहित्य अधिकांशत: देवनागरी लिपि में ही पाया जाता है. हिंदी और इसकी अन्य अनेक क्षेत्रीय बोलियाँ देवनागरी में ही लिखी जाती हैं. संस्कृत के अलावा नेपाली, मराठी और कोंकणी भाषा की आधिकारिक लिपि भी देवनागरी ही है.

आई.आई.टी, कानपुर के कंप्यूटर वैज्ञानिकों को सभी भारतीय भाषाओं के लिए जिस्ट प्रौद्योगिकी के आधार पर समान कुंजीपटल का विकास करते हुए इस तथ्य का व्यावहारिक अनुभव हुआ. पहली बार इसका सार्वजनिक प्रदर्शन सन् 1983 में नई दिल्ली में आयोजित विश्व हिंदी सम्मेलन में किया गया. क्वेर्टी कुंजीपटल पर सभी भारतीय भाषाओं को समेटना अपने आप में एक जटिल कार्य था, लेकिन ब्राह्मी लिपि से उद्भव के फलस्वरूप भारतीय लिपियों के समान ध्वन्यात्मक स्वरूप के कारण यह कार्य अत्यंत वैज्ञानिक रूप में संपन्न हो गया. सभी भारतीय भाषाओं के लिए जिस्ट (GIST अर्थात् Graphics and Intelligence based Script Technology ) प्रौद्योगिकी के आधार पर समान ध्वन्यात्मक कुंजीपटल और समान कोडिंग प्रणाली का विकास किया गया.

भारतीय लिपियाँ अपने स्वरूप में अक्षरात्मक हैं, लेकिन उनकी वर्णमाला का क्रम ध्वन्यात्मक है और ब्राह्मी लिपि से उद्भव के कारण उनकी विरासत भी एक ही है. कुछ लिपियों में मामूली-सा अंतर होने के कारण कुछ अक्षर अतिरिक्त हैं और कुछ लिपियों में कुछ अक्षर कम हैं. 1986-88 में विकसित ISCII (Indian Standard Code for Information Interchange) कोड में परिवर्धित देवनागरी के अंतर्गत इस पक्ष का भी ध्यान रखा गया और इसे भारतीय मानक ब्यूरो ने मानक के रूप में स्वीकार कर लिया था, लेकिन जब कंप्यूटर के उपयोग का सवाल आया तो भारतीय भाषाओं में डेटा प्रविष्टि के अनेक विकल्प सामने थे और यही चिंता की बात थी. भारतीय भाषाओं में डेटा प्रविष्टि के लिए डिफ़ॉल्ट विकल्प INSCRIPT (INdian SCRIPT) लेआउट है. इस लेआउट में मानक 101 कुंजीपटल का उपयोग किया जाता है. वर्णों की मैपिंग इस प्रकार से की गई है कि यह सभी भारतीय भाषाओं (बाएँ से दाईं ओर लिखी जाने वाली भाषाओं) के लिए समान कुंजीपटल बन जाता है. इसका प्रमुख कारण यही है कि भारतीय भाषाओं के वर्णों का समुच्चय समान है. हम भारतीय भाषाओं की वर्णमाला के वर्णों को व्यंजन, स्वर, अनुनासिक और संयुक्ताक्षरों में विभाजित कर सकते हैं. प्रत्येक व्यंजन विशिष्ट ध्वनि और स्वर का संयोजन होता है. स्वर शुद्ध ध्वनियों को दर्शाता है. अनुनासिक वे नासिक्य ध्वनियाँ होती हैं, जिनका उच्चारण स्वर के साथ किया जाता है. संयुक्ताक्षर दो या अधिक वर्णों का संयोजन होता है.भारतीय भाषाओं की वर्णमाला की तालिका को स्वर और व्यंजन में विभाजित किया जाता है. स्वर दो प्रकार के होते हैं, दीर्घ और लघु. व्यंजनों को अनेक वर्गों में विभाजित किया जाता है. INSCRIPT लेआउट में यह व्यवस्था प्रतिबिंबित होती है. इसीलिए इसकी व्यवस्था बहुत सरल होती है. इन्स्क्रिप्ट ले आउट में सभी स्वरों

को कुंजीपटल के बाईं ओर रखा गया है और व्यंजनों को दाईं ओर. यह व्यवस्था इसप्रकार से की गई है कि प्रत्येक वर्ग को दो कुंजियों में विभाजित कर दिया गया है. इस प्रकार इन भाषाओं के समान अकारादि क्रम के कारण ही सभी भारतीय भाषाओं के लिए समान कुंजीपटल और समान कोड विकसित किया जा सका है और सभी भारतीय भाषाओं के लिए समान कोडिंग के कारण ही भारतीय लिपियों में परस्पर लिप्यंतरण की सुविधा भी सहज ही उपलब्ध हो जाती है. चूँकि ISCII में रोमन लिपि को भी समाहित किया गया है, इसलिए इंडिक लिपियों अर्थात् भारतीय भाषाओं की लिपियों से रोमन लिपि में भी लिप्यंतरण किया जा सकता है.

वर्तमान परिदृश्य में, इंडिक अर्थात् भारतीय भाषाओं के अधिकांश उपयोगकर्ता सिस्टम और फ़ॉन्ट की असंगतता के कारण आज भी अमानक फ़ॉन्ट का उपयोग कर रहे हैं और ई-मेल, गपशप(चैट), टैम्पलेट, ऑटो टेक्स्ट, थिसॉरस, स्पेलचैक जैसे अनुप्रयोगों का इंडिक भाषाओं में उपयोग करने में हिचकिचाते हैं. यही कारण है कि कंप्यूटर पर हिंदी के उपयोगकर्ता आज भी शब्दसंसाधन तक ही सीमित हैं. शब्दसंसाधन के अंतर्गत भी वे कंप्यूटर पर हिंदी में टाइप करने मात्र को ही हिंदी कंप्यूटिंग समझने लगते हैं. बहुत ही कम उपयोगकर्ता ऐसे हैं जो हिंदी और अन्य भारतीय भाषाओं में, पावर पॉइंट, ऐक्सेल और ऐक्सेस आदि का उपयोग करते हैं. इसका मुख्य कारण अब तक तो यही था कि इंडिक भाषाओं में विभिन्न सिस्टमों के आरपार कोई समान मानक प्रचलित नहीं था. इस दिशा में भारत सरकार द्वारा अनुमोदित भारतीय भाषाओं में कंप्यूटिंग के लिए ISCII कोडिंग प्रणाली एक अच्छी शुरूआत थी, लेकिन वैश्वीकरण के इस युग में विविध प्रकार के प्लेटफ़ॉर्म, फ़ॉन्ट और सिस्टम के बावजूद आवश्यकता एक ऐसी मानक कोडिंग प्रणाली की थी, जिसके अंतर्गत विश्व की सभी भाषाएँ सह-अस्तित्व की भावना के साथ रह सकें. इन समस्याओं का एकमात्र समाधान है, युनिकोड. इसलिए हमारा प्रयास यह होना चाहिए कि इंडिक भाषाओं के उपयोगकर्ताओं को युनिको़ड में भाषा कंप्यूटिंग के लाभों से अवगत कराया जाए. युनिको़ड में भारतीय भाषाओं को ISCII के आधार पर ही एन्कोड किया गया है.

हिंदी के व्यापक प्रचार-प्रसार में युनिकोड की सुविधा क्रांतिकारी परिवर्तन ला सकती है. आज विश्व की सभी लिखित भाषाओं के लिए युनिकोड नामक विश्वव्यापी कोड का उपयोग, माइक्रोसॉफ़्ट, आई.बी.एम.,लाइनेक्स, ओरेकल जैसी विश्व की लगभग सभी कंप्यूटर कंपनियों द्वारा किया जा रहा है. यह कोडिंग सिस्टम फ़ॉन्ट्समुक्त , प्लेटफ़ॉर्ममुक्त और ब्राउज़रमुक्त है. विंडोज़ 2000 या उससे ऊपर के सभी पी सी युनिकोड को सपोर्ट करते हैं, इसलिए युनिकोड आधारित फ़ॉन्ट का उपयोग करने से न केवल हिंदी को आज विश्व की उन्नत भाषाओं के समकक्ष रखा जा सकता है, बल्कि इसकी सहायता से निर्मित वेबसाइट में खोज आदि अधुनातन सुविधाएँ भी सहजता से ही उपलब्ध हो सकती हैं.

भारत के महामहिम राष्ट्रपति ने 14 सितंबर, 2006 को हिंदी दिवस पर केंद्रीय हिंदी
संस्थान द्वारा विज्ञान भवन, नई दिल्ली में आयोजित विशेष समारोह में अपने भाषण
में युनिकोड के महत्व पर प्रकाश डालते हुए कहा था: ' विश्‍व के अनेक हिस्सों में हिंदी भाषा आसानी से बोली जा सके इसके लिए इंटरनेट पर हिंदी साहित्य का युनिकोड स्वरूप उपलब्ध करवाना होगा.' इससे यह स्पष्ट है कि युनिकोड के कारण आज कंप्यूटर के क्षेत्र में हिंदी विश्व की सभी विकसित भाषाओं के समकक्ष आ गई है.

----------------------------------

Saturday, August 12, 2017

युनिकोड आधारित इंडिक लिपियों में अंतर्निहित समानता