युनिकोड आधारित इंडिक
लिपियों में अंतर्निहित समानता
----विजय कुमार मल्होत्रा, पूर्व निदेशक (राजभाषा) ,रेल
मंत्रालय, भारत सरकार
यह एक ऐतिहासिक संयोग ही है कि कंप्यूटर
का विकास सर्वप्रथम ऐसे देशों में हुआ, जिनकी भाषा मुख्यत:अंग्रेज़ी या रोमन लिपि
पर आधारित कोई योरोपीय भाषा थी.कदाचित् यही कारण है कि रोमनेतर भाषाओं में
कंप्यूटरसाधित भाषा संसाधन का कार्य कुछ देरी से आरंभ हुआ. इस बात में भी कोई संदेह
नहीं कि रैखिक (linear) लिपि होने के कारण रोमन लिपि में सूचना संसाधन का
कार्य अपेक्षाकृत सरल भी था. किंतु इस बात का कोई तकनीकी कारण
नहीं है कि रोमन लिपि या अंग्रेज़ी भाषा कंप्यूटर संसाधन के लिए आदर्श समझी जाए. वस्तुत:कंप्यूटर की दो संकेतों
की अपनी स्वतंत्र गणितीय भाषा है और उसी भाषा में वे हमारी भाषाओं को ग्रहण करके
अपने सभी कार्य संपन्न करते हैं. इसलिए कंप्यूटर के लिए किसी भी भाषा को अपनाने
में कोई तकनीकी बाधा नहीं है. वस्तुत: कंप्यूटर में सारी गणनाएँ केवल
दो संकेतों (0 और 1) से होती हैं. केवल गणित ही नहीं, तार्किक कथनों को भी ‘हाँ’ या ‘नहीं’ के बीजगणित में ढाला जा
सकता है. विभिन्न लिपियों के माध्यम से प्राकृतिक भाषाओं के पाठ के
कुंजीयन के लिए द्वि-आधारी कोड ( binary code) बनाए गए हैं. रोमन लिपि के कोड को आस्की-7 कोड (ASCII अर्थात् American Standard Code for Information
Interchange) कहा जाता है. इस 7 अंकीय कोड में रोमन
लिपि के सभी अक्षर, अंक और विराम चिह्न समाहित हो जाते हैं. फ़्रांसीसी, जर्मन, इतालवी, पुर्तगाली, डच और स्पेनिश आदि रोमन-आधारित
भाषाओं में प्रयुक्त सभी विशेषक चिह्नों ( diacritic marks) को भी इसमें समाविष्ट
किया गया है. जैसे A के लिए आस्की-7 कोड में 8 बिट की 0 और 1 की यह गणना 01000001के रूप में निर्धारित की गई है. जैसे
ही इसे डीकोडित किया जाएगा, यह A में परिणत हो जाएगा.
जिस प्रकार आस्की-7 कोड एक ऐसी कोडिंग प्रणाली है,जो सभी रोमन-आधारित भाषाओं को कंप्यूटर
के स्मृति कोश में भंडारण या स्टोरेज के लिए विकसित की गई है, ठीक उसी प्रकार कंप्यूटर
में सभी भारतीय भाषाओं के भंडारण या स्टोरेज के लिए इस्की-8 कोडिंग प्रणाली (ISCII अर्थात् Indian Standard Code for Information
Interchange) की परिकल्पना की गई
है. वस्तुत: यह आस्की-7 का ही विस्तृत रूप है. सच तो यह है कि आस्की-7 भी मूलत: 8 बिट की कोडिंग प्रणाली ही है, लेकिन उसके
अंतर्गत रोमन लिपि के छोटे और कैपिटल अक्षरों, उसके विराम चिह्नों तथा अन्य रोमन-आधारित
भाषाओं में प्रयुक्त सभी विशेषक चिह्नों को केवल 7 बिट में ही समाहित कर लिया गया है. हिंदी
और अन्य भारतीय भाषाओं के लिए कोडिंग प्रणाली निर्धारित करते समय आई.आई.टी, कानपुर
के वैज्ञानिकों के सामने निम्नलिखित दो बातें बहुत स्पष्ट थीं. पहली बात तो यह थी
कि भारतीय भाषाओं के लिए निर्धारित की जाने वाली कोडिंग प्रणाली में रोमन लिपि के
समावेश की सुविधा भी सहज रूप में उपलब्ध होनी चाहिए. साथ ही दूसरी बात यह थी कि
रोमन लिपि के लिए विकसित क्वेर्टी कुंजीपटल में ही हिंदी और अन्य भारतीय लिपियों
में टाइप करने की सुविधा उपलब्ध कराई जानी चाहिए, ताकि रोमन लिपि और भारतीय भाषाओं में
परस्पर सह-अस्तित्व की भावना विकसित हो सके अर्थात् हिंदी व अन्य
भारतीय भाषाओं और अंग्रेज़ी में साथ-साथ काम किया जा सके.
भारत की अनेक भाषाओं की लिपियाँ तो
एक-दूसरे से इतनी भिन्न दिखती हैं कि उनमें समानता के अंतर्निहित सूत्र को खोजना
भी सरल नहीं है. उदाहरण के लिए आर्यभाषाओं और द्रविड़ भाषाओं में इतना अंतर दिखाई
पड़ता है कि यह विश्वास करना कठिन हो जाता है कि सभी भारतीय भाषाओं की लिपियों
(उर्दू को छोड़कर) का उद्गम ब्राह्मी लिपि के समान स्रोत से हुआ है. यद्यपि इन
भाषाओं के अक्षर ऊपरी तौर पर भिन्न-भिन्न दिखाई पड़ते हैं, लेकिन इनकी वर्णमाला और
लिपि समान उच्चारण पद्धति पर आधारित है. उर्दू इसका अपवाद है, क्योंकि इसकी लिपि
फ़ारसी-अरबी लिपि पर आधारित है.
यदि ऐतिहासिक दृष्टि से देखें तो अशोक काल से ही
हमें उत्तर और दक्षिण भारत में ब्राह्मी लिपि का व्यापक उपयोग मिलने लगता है. चौथी
शताब्दी के उत्तरार्ध में ब्राह्मी दो शैलियों में विभक्त हो गई, उत्तरी शैली और
दक्षिणी शैली. उत्तर भारत की सभी परवर्ती लिपियाँ ब्राह्मी की उत्तरी शैली से और
दक्षिणी भारत की सभी परवर्ती लिपियाँ ब्राह्मी की दक्षिणी शैली से विकसित हुईं. कालांतर
में इन लिपियों में इतना अंतर आ गया कि बिना सीखे उत्तर वालों के लिए दक्षिण की
किसी लिपि को पढ़ना संभव न रहा और इसीप्रकार बिना सीखे दक्षिण वालों के लिए उत्तर
भारत की किसी लिपि को पढ़ना संभव न रहा. इस अंतर का प्रमुख कारण कदाचित्
लेखन-सामग्री की भिन्नता भी रहा है. दक्षिण भारत में ताड़ वृक्षों की बहुलता के
कारण लेखन-सामग्री के रूप में ताड़पत्रों का उपयोग किया जाता था और उस पर सीधे
लिखने से ताड़पत्रों के फट जाने की आशंका रहती थी. इसलिए दक्षिण भारत में नोकदार
सूखी कलम से वृत्ताकार रूप में लिखने की परंपरा विकसित हुई. इसके विपरीत उत्तर
भारत में चपटी और खोखली कलम से वृत्त के बजाय ऊपर-नीचे की मात्राओं के साथ लिखने
की परंपरा विकसित हुई. चौथी शताब्दी में ब्राह्मी की उत्तरी शैली से ‘गुप्त लिपि’ का जन्म हुआ. इसके अनेक वर्णों की
आकृति देवनागरी के वर्णों से मिलती-जुलती है. गुप्त लिपि के वर्णों में शिरोरेखा
का प्रयोग स्पष्ट रूप से मिलता है. छठी शताब्दी तक आते-आते गुप्त लिपि कुटिल लिपि
में परिवर्तित हो गई और इसी कुटिल लिपि से अन्य अनेक आर्यभाषिक लिपियों के साथ-साथ
देवनागरी लिपि का भी विकास हुआ. यह लिपि अपने उद्भव काल से ही सारे देश में प्रयुक्त
होने लगी थी. इस प्रकार ब्राह्मी लिपि का वास्तविक राष्ट्रीय स्वरूप देवनागरी के
रूप में अवतरित हुआ. आज भी विश्व भर में प्रकाशित संपूर्ण संस्कृत साहित्य
अधिकांशत: देवनागरी लिपि में
ही पाया जाता है. हिंदी और इसकी अन्य अनेक क्षेत्रीय बोलियाँ देवनागरी में ही लिखी
जाती हैं. संस्कृत के अलावा नेपाली, मराठी और कोंकणी भाषा की आधिकारिक लिपि भी
देवनागरी ही है.
आई.आई.टी,
कानपुर के कंप्यूटर वैज्ञानिकों को सभी
भारतीय भाषाओं के लिए जिस्ट प्रौद्योगिकी के आधार पर समान कुंजीपटल का विकास करते
हुए इस तथ्य का व्यावहारिक अनुभव हुआ. पहली बार इसका सार्वजनिक प्रदर्शन सन् 1983
में नई दिल्ली में आयोजित विश्व हिंदी
सम्मेलन में किया गया. क्वेर्टी कुंजीपटल पर सभी भारतीय भाषाओं को समेटना अपने आप
में एक जटिल कार्य था, लेकिन ब्राह्मी लिपि से उद्भव के फलस्वरूप भारतीय लिपियों
के समान ध्वन्यात्मक स्वरूप के कारण यह कार्य अत्यंत वैज्ञानिक रूप में संपन्न हो
गया. सभी भारतीय भाषाओं के लिए जिस्ट (GIST अर्थात् Graphics and
Intelligence based Script Technology ) प्रौद्योगिकी
के आधार पर समान ध्वन्यात्मक कुंजीपटल और समान कोडिंग प्रणाली का विकास किया गया.
भारतीय लिपियाँ अपने स्वरूप में अक्षरात्मक
हैं, लेकिन उनकी वर्णमाला का क्रम ध्वन्यात्मक है और ब्राह्मी लिपि से उद्भव के
कारण उनकी विरासत भी एक ही है. कुछ लिपियों में मामूली-सा अंतर होने के
कारण कुछ अक्षर अतिरिक्त हैं और कुछ लिपियों में कुछ अक्षर कम हैं. 1986-88 में विकसित ISCII (Indian
Standard Code for Information Interchange) कोड में परिवर्धित देवनागरी के अंतर्गत इस पक्ष का भी ध्यान
रखा गया और इसे भारतीय मानक ब्यूरो ने मानक के रूप में स्वीकार कर लिया था, लेकिन
जब कंप्यूटर के उपयोग का सवाल आया तो भारतीय भाषाओं में डेटा प्रविष्टि के अनेक
विकल्प सामने थे और यही चिंता की बात थी. भारतीय भाषाओं में डेटा प्रविष्टि के लिए
डिफ़ॉल्ट विकल्प INSCRIPT
(INdian SCRIPT)
लेआउट है. इस लेआउट में मानक 101 कुंजीपटल
का उपयोग किया जाता है. वर्णों की मैपिंग इस प्रकार से की गई है कि यह सभी भारतीय
भाषाओं (बाएँ से दाईं ओर लिखी जाने वाली भाषाओं) के लिए समान कुंजीपटल बन जाता है.
इसका प्रमुख कारण यही है कि भारतीय भाषाओं के वर्णों का समुच्चय समान है. हम भारतीय भाषाओं की
वर्णमाला के वर्णों को व्यंजन, स्वर,
अनुनासिक और संयुक्ताक्षरों में विभाजित कर सकते हैं. प्रत्येक व्यंजन विशिष्ट
ध्वनि और स्वर का संयोजन होता है. स्वर शुद्ध ध्वनियों को दर्शाता है. अनुनासिक
वे नासिक्य ध्वनियाँ होती हैं, जिनका उच्चारण स्वर के साथ किया जाता है.
संयुक्ताक्षर दो या अधिक वर्णों का संयोजन होता है.भारतीय भाषाओं की वर्णमाला की तालिका को
स्वर और
व्यंजन में
विभाजित किया जाता है. स्वर दो प्रकार के होते हैं, दीर्घ और लघु. व्यंजनों
को अनेक वर्गों में विभाजित किया जाता है. INSCRIPT लेआउट में यह व्यवस्था प्रतिबिंबित
होती है. इसीलिए इसकी व्यवस्था बहुत सरल होती है. इन्स्क्रिप्ट ले आउट में सभी
स्वरों
को कुंजीपटल के बाईं
ओर रखा गया है और व्यंजनों को दाईं ओर. यह व्यवस्था इसप्रकार से की गई है कि
प्रत्येक वर्ग को दो कुंजियों में विभाजित कर दिया गया है. इस प्रकार इन भाषाओं के
समान अकारादि क्रम के कारण ही सभी भारतीय भाषाओं के लिए समान कुंजीपटल और समान कोड
विकसित किया जा सका है और सभी भारतीय भाषाओं के लिए समान कोडिंग के कारण ही भारतीय
लिपियों में परस्पर लिप्यंतरण की सुविधा भी सहज ही उपलब्ध हो जाती है. चूँकि ISCII में रोमन लिपि को भी समाहित किया गया
है, इसलिए इंडिक लिपियों अर्थात् भारतीय भाषाओं की लिपियों से रोमन लिपि में भी
लिप्यंतरण किया जा सकता है.
वर्तमान परिदृश्य में,
इंडिक अर्थात् भारतीय भाषाओं के अधिकांश
उपयोगकर्ता सिस्टम और फ़ॉन्ट की असंगतता के कारण आज भी अमानक फ़ॉन्ट का उपयोग कर
रहे हैं और ई-मेल, गपशप(चैट), टैम्पलेट, ऑटो टेक्स्ट, थिसॉरस, स्पेलचैक जैसे
अनुप्रयोगों का इंडिक भाषाओं में उपयोग करने में हिचकिचाते हैं. यही कारण है कि
कंप्यूटर पर हिंदी के उपयोगकर्ता आज भी शब्दसंसाधन तक ही सीमित हैं. शब्दसंसाधन के
अंतर्गत भी वे कंप्यूटर पर हिंदी में टाइप करने मात्र को ही हिंदी कंप्यूटिंग
समझने लगते हैं. बहुत ही कम उपयोगकर्ता
ऐसे हैं जो हिंदी और अन्य भारतीय भाषाओं में, पावर पॉइंट, ऐक्सेल और ऐक्सेस आदि का
उपयोग करते हैं. इसका मुख्य कारण अब तक तो यही था कि इंडिक भाषाओं में विभिन्न
सिस्टमों के आरपार कोई समान मानक प्रचलित नहीं था. इस दिशा में भारत सरकार द्वारा
अनुमोदित भारतीय भाषाओं में कंप्यूटिंग के लिए ISCII कोडिंग प्रणाली एक अच्छी शुरूआत थी, लेकिन
वैश्वीकरण के इस युग में विविध प्रकार के प्लेटफ़ॉर्म, फ़ॉन्ट और सिस्टम के बावजूद
आवश्यकता एक ऐसी मानक कोडिंग प्रणाली की थी, जिसके अंतर्गत विश्व की सभी भाषाएँ
सह-अस्तित्व की भावना के साथ रह सकें. इन समस्याओं का एकमात्र समाधान है, युनिकोड.
इसलिए हमारा प्रयास यह होना चाहिए कि इंडिक भाषाओं के उपयोगकर्ताओं को युनिको़ड
में भाषा कंप्यूटिंग के लाभों से अवगत कराया जाए. युनिको़ड में भारतीय भाषाओं को ISCII के आधार पर ही एन्कोड किया गया है.
हिंदी के व्यापक प्रचार-प्रसार में युनिकोड की सुविधा क्रांतिकारी
परिवर्तन ला सकती है. आज विश्व की सभी लिखित भाषाओं के लिए
युनिकोड नामक विश्वव्यापी कोड का उपयोग, माइक्रोसॉफ़्ट, आई.बी.एम.,लाइनेक्स, ओरेकल जैसी विश्व की लगभग सभी कंप्यूटर कंपनियों द्वारा
किया जा रहा
है. यह कोडिंग सिस्टम फ़ॉन्ट्समुक्त , प्लेटफ़ॉर्ममुक्त और ब्राउज़रमुक्त है.
विंडोज़ 2000 या उससे ऊपर के सभी पी सी युनिकोड को
सपोर्ट करते हैं, इसलिए
युनिकोड आधारित फ़ॉन्ट
का उपयोग करने से न केवल हिंदी को आज विश्व की उन्नत भाषाओं के समकक्ष रखा जा सकता
है, बल्कि इसकी सहायता से
निर्मित वेबसाइट में खोज
आदि अधुनातन
सुविधाएँ भी सहजता से ही उपलब्ध हो सकती हैं.
भारत के महामहिम राष्ट्रपति ने 14 सितंबर, 2006 को हिंदी दिवस पर केंद्रीय हिंदी
संस्थान द्वारा विज्ञान भवन, नई दिल्ली में आयोजित विशेष समारोह में अपने भाषण
में युनिकोड के महत्व पर प्रकाश डालते हुए कहा था: ' विश्व के अनेक हिस्सों में हिंदी भाषा आसानी से बोली जा सके इसके लिए इंटरनेट पर हिंदी साहित्य का युनिकोड स्वरूप उपलब्ध करवाना होगा.' इससे यह स्पष्ट है कि युनिकोड के कारण
आज कंप्यूटर के क्षेत्र
में हिंदी विश्व की सभी विकसित भाषाओं के समकक्ष आ गई है.
भारत के महामहिम राष्ट्रपति ने 14 सितंबर, 2006 को हिंदी दिवस पर केंद्रीय हिंदी
संस्थान द्वारा विज्ञान भवन, नई दिल्ली में आयोजित विशेष समारोह में अपने भाषण
में युनिकोड के महत्व पर प्रकाश डालते हुए कहा था: ' विश्व के अनेक हिस्सों में हिंदी भाषा आसानी से बोली जा सके इसके लिए इंटरनेट पर हिंदी साहित्य का युनिकोड स्वरूप उपलब्ध करवाना होगा.' इस
----------------------------------