Saturday, November 10, 2007

യൂണികോഡ്‌

കംപ്യൂട്ടര്‍ സാങ്കേതിക വിദ്യയേയും പ്രാദേശിക ഭാഷകളെയും കോര്‍ത്തിണക്കുന്ന ലിപി വിന്യാസമാണ്‌ യൂണികോഡ്‌ ഫോണ്ടുകള്‍. ഇംഗ്ലീഷ്‌ മാത്രമാണ്‌ ഇന്റര്‍നെറ്റിന്റെ ഭാഷയെന്ന്‌ ധാരണയെ സാങ്കേതികപരമായി വരെ തിരുത്താന്‍ ശേഷിയുള്ളതാണ്‌ യൂണികോഡ്‌ ഫോണ്ടുകള്‍. പ്രാദേശിക ഭാഷകളില്‍ അനായാസമായി ഉപയോഗിക്കാന്‍ സാധിക്കുന്ന യൂണികോഡ്‌ ഫോണ്ടുകള്‍ ലോകത്തിലെ എല്ലാ ഭാഷകള്‍ക്കും പര്യാപ്‌തമായ അക്ഷരക്കൂട്ടമാണ്‌.പണ്ട്‌ മലയാളഭാഷയുടെ ഭാഗമായി ഉപയോഗിച്ചുവന്നിരുന്ന അക്കങ്ങള്‍ വരെ ഇന്ന്‌ യൂണികോഡ്‌ മലയാളത്തില്‍ ഇണക്കി ചേര്‍ത്തു കഴിഞ്ഞു. മീര എന്ന പേരില്‍ തനത്‌ മലയാളലിപിയിലുള്ള അക്ഷര രൂപം കെ.എച്‌.ഹുസൈന്‍,പി.സുരേഷ്‌ എന്നിവര്‍ ചേര്‍ന്ന്‌ വികസിപ്പിച്ചിട്ടുണ്ട്‌. പ്രാദേശിക ഭാഷകള്‍ ടൈപ്പ്‌ ചെയ്യാനുപയോഗിക്കുന്ന ട്രാന്‍സ്‌ലിറ്ററേഷന്‍ (ലിപ്യന്തരണം) വ്യാപകമായതോടെ ഇംഗ്ലീഷ്‌ കീബോര്‍ഡ്‌ ഉപയോഗിച്ച്‌ തന്നെ മലയാളം ടൈപ്പ്‌ ചെയ്യാമെന്ന സ്ഥിതി വന്നു.
'കേരളത്തിന്റെ' എന്നു സ്‌ക്രീനില്‍ കാണണമെങ്കില്‍ kEraLathinte എന്ന്‌ ടൈപ്പ്‌ ചെയ്‌താല്‍ മതിയാകും. മലയാളം ടൈപ്പിംഗ്‌ വശമില്ലാത്തവര്‍ക്കും എളുപ്പത്തില്‍ ടൈപ്പ്‌ ചെയ്യാമെന്നത്‌ ബ്ലോഗിംഗ്‌, ഓര്‍ക്കൂട്ട്‌ സ്‌ക്രാപ്‌ ബുക്ക്‌, വിക്കീപീഡിയ മലയാളം പതിപ്പ്‌, വെബ്‌ മാഗസിനുകള്‍ എന്നിവയില്‍ യൂണികോഡിനെ ജനകീയമാക്കുന്നു. യൂണികോഡ്‌ ഫോണ്ടുപയോഗിച്ച്‌ സര്‍ച്ച്‌ ചെയ്യാവുന്ന സങ്കേതം ഗൂഗിള്‍ വികസിപ്പിച്ചെടുത്ത്‌ വിന്യസിച്ചിട്ടുണ്ട്‌.

ന്റര്‍നെറ്റ്‌, ഡിജിറ്റല്‍ കണ്ടന്റുകള്‍ എന്നിവയുടെ വ്യാപകമായ ഉപയോഗത്തോടുകൂടി വിവരവിനിമയ രംഗത്ത്‌ ഒരു വലിയ കുതിച്ചാട്ടത്തിന്‌ ലോകം സാക്ഷ്യം വഹിക്കുകയാണ്‌. ഡിജിറ്റല്‍ വിദ്യ പ്രാപ്യമായവരും അല്ലാത്തവരും തമ്മിലുള്ള അന്തരം (ഡിജിറ്റല്‍ ഡിവൈഡ്‌) കുറയ്‌ക്കാന്‍ പ്രാദേശിക ഭാഷയിലുള്ള വിവരശേഖരം ഏറെ ഉപകരിക്കും.ഇന്റര്‍നെറ്റ്‌ ഉള്ളടക്കത്തിന്റെ കാര്യത്തില്‍ ഒരോ സേവനദാതാക്കളും അവരവരുടെ ഫോണ്ടാണ്‌ ഉപയോഗിച്ചുവരുന്നത്‌. ഓരോ സൈറ്റും വായിക്കണമെങ്കില്‍ അതാത്‌ ഫോണ്ടുകള്‍ ഡൗണ്‍ലോഡ്‌ ചെയ്യുകയും വേണം.പ്രാദേശിക ഭാഷയില്‍ മാറ്റര്‍ തയാറാക്കി മറ്റൊരു കംപ്യൂട്ടറിലേക്ക്‌ മാറ്റുമ്പോള്‍ ഫോണ്ട്‌ കൂടി പകര്‍ത്തി കൊടുക്കേണ്ട അവസ്ഥ.അക്ഷരങ്ങള്‍,അക്കങ്ങള്‍,ചിഹ്നങ്ങള്‍ എന്നിവ ഒന്നിന്റെയും പൂജ്യത്തിന്റെയും (ബൈനറി ഡിജിറ്റ്‌) ശ്രേണിയായി ആണ്‌ കംപ്യൂട്ടര്‍ ഓര്‍മ്മയിലേക്ക്‌ സൂക്ഷിക്കുന്നത്‌. ഇങ്ങനെ സൂക്ഷിക്കുമ്പോള്‍ ഓരോ അക്ഷരത്തിനും ഒന്നിനൊന്ന്‌ വ്യത്യസ്‌തമായ ബൈനറി ഡിജിറ്റ്‌ ശ്രേണി ഉണ്ടാകണം. നേരത്തേ ഇത്‌ ആസ്‌കി (ASCII- അമേരിക്കന്‍ സ്റ്റാന്‍ഡേഡ്‌ കോഡ്‌ ഫോര്‍ ഇന്‍ഫര്‍മേഷന്‍ ഇന്റര്‍ചേഞ്ച്‌) കോഡ്‌ ആയിരുന്നു. അക്ഷരങ്ങള്‍, അക്കങ്ങള്‍, ചിഹ്നങ്ങള്‍ എന്നിവയെ ഒന്നും പൂജ്യവും ഉപയോഗിച്ച്‌ കോഡ്‌ ചെയ്യുന്ന സമ്പ്രദായത്തെ കാരക്‌ടര്‍ എന്‍കോഡിംഗ്‌ എന്നാണ്‌ പറയുന്നത്‌. 256 അക്ഷര-അക്ക-ചിഹ്നങ്ങള്‍ മാത്രമേ ഉള്‍പ്പെടുത്താവുകയുള്ളൂ എന്നതാണ്‌ ആസ്‌കികോഡിന്റെ മുഖ്യപരിമിതി. 128 എണ്ണം ഇംഗ്ലീഷിനുപയോഗിക്കുന്ന ലാറ്റിന്‍ അക്ഷരങ്ങള്‍ക്കും ശേഷം 128 ഇംഗ്ലീഷിനുപയോഗിക്കാത്ത മറ്റ്‌ ലാറ്റിന്‍ ഭാഷക്കും ഉപയോഗിക്കാവുന്ന രീതിയാണ്‌ ഇതില്‍ പിന്തുടരുന്നത്‌. എന്നാല്‍ ഇന്റര്‍നെറ്റിന്റെ വ്യാപകമായ ഉപയോഗത്തോടെ ഒന്നിലധികം ഭാഷകള്‍ ഒരു സമയം തന്നെ ഒരു മാറ്ററില്‍ വായിക്കേണ്ട അവസരങ്ങളില്‍ ആസ്‌കീ ഫോണ്ടുകള്‍ ഉപയോഗിക്കാന്‍ തടസങ്ങളുണ്ട്‌. 256 ലൊക്കേഷനില്‍ ആദ്യത്തെ 128 ഇംഗ്ലീഷ്‌ ഭാഷയിലെ സ്‌മാള്‍കേയ്‌സ്‌, അപ്പര്‍ കേയ്‌സ്‌, അക്കങ്ങള്‍, ചിഹ്നങ്ങള്‍ എന്നിവ കോഡ്‌ ചെയ്യാന്‍ ഉപയോഗിക്കുന്നു. ഫ്രഞ്ച്‌, സ്‌പാനീഷ്‌, ജര്‍മ്മന്‍ ഭാഷകളിലെ ചില അക്ഷരങ്ങള്‍ കോഡ്‌ ചെയ്യാന്‍ ആദ്യ 128 ലൊക്കേഷനുകള്‍ മതിയാകില്ല. അപ്പോള്‍ അടുത്ത 128 ലൊക്കേഷനുകള്‍ ഇതിനായി ഉപയോഗപ്പെടുത്താം. ലാറ്റിന്‍ 1 എന്ന്‌ പേരിട്ട്‌ ഇതിനെ വിളിക്കുന്നു.

പക്ഷേ, മുഖ്യ പരിമിതി രണ്ടു ലാറ്റിന്‍ ലിപികള്‍ മാത്രമേ ഉപയോഗിക്കാന്‍ സാധിക്കൂ എന്നത്‌ തന്നെയാണ്‌. ചൈനീസ്‌, ജപ്പാനീസ്‌ പോലുള്ള അക്ഷരവൈവിധ്യം ഏറെയുള്ള ഭാഷകള്‍ 256 ല്‍ ഒതുങ്ങുകയുമില്ല എന്ന പ്രതിസന്ധിയും വന്നു. ഇത്‌ മറികടക്കാന്‍ ഫോണ്ട്‌ എന്‍കോഡിംഗ്‌ എന്ന സംവിധാനം ഉപയോഗിച്ചു. അക്ഷരങ്ങള്‍ കംപ്യൂട്ടറിലേക്ക്‌ സ്വീകരിക്കുന്നത്‌ ഇംഗ്ലീഷിലും ദൃശ്യമാക്കുന്നത്‌ മലയാളം പൊലെയുള്ള പ്രാദേശിക ഭാഷയിലും. ഇംഗ്ലീഷ്‌ അക്ഷരത്തിനുമേല്‍ മലയാള അക്ഷരം ചേര്‍ത്ത്‌ വയ്‌ക്കുന്ന രീതി. ഇന്റര്‍നെറ്റ്‌ സര്‍ച്ചിംഗ്‌ പൊലെയുള്ള സന്ദര്‍ഭങ്ങളില്‍ ഇത്‌ ഏറെ പ്രശ്‌നങ്ങള്‍ സൃഷ്‌ടിക്കും. കംപ്യൂട്ടറിനറിയില്ല ഇത്‌ മലയാളമാണന്ന്‌.!!ഏക പോംവഴി എല്ലാവര്‍ക്കും സ്വീകാര്യമായതും സാങ്കേതികപരമായി കുറ്റമറ്റതുമായ ഒരു ലിപി വ്യവസ്ഥ ഉണ്ടാക്കിയെടുക്കുക എന്നുള്ളതായി. ഇതിന്റെ ഫലമായി യൂണികോഡ്‌ കണ്‍സോര്‍ഷ്യം (www.unicode.org) എന്ന ലാഭേച്ഛയില്ലാത്ത സ്വതന്ത്ര സംഘടനനിലവില്‍ വന്നു. ലോകത്തിലെ മിക്ക കംപ്യൂട്ടര്‍, ഐ.ടി സ്ഥാപനങ്ങള്‍ യൂണികോഡ്‌ സംഘടനയിലെ അംഗങ്ങളാണ്‌. ഭാരതസര്‍ക്കാരും പ്രാദേശിക ഭാഷാ സംവിധാനം പരിപോഷിപ്പിക്കാനായി യൂണികോഡില്‍ ഇന്‍സ്റ്റിറ്റിയൂഷണല്‍ അംഗമാണ്‌. 1992 ല്‍ തന്നെ യൂണികോഡ്‌ 1.0 എന്ന പതിപ്പ്‌ പുറത്തുവന്നു ഇപ്പോള്‍ യൂണികോഡ്‌ 5.0 ആണ്‌ ഏറ്റവും പുതിയ അവതാരം. 16 ബിറ്റു മാത്രം ഉപയോഗിച്ച്‌ പൂജ്യവും ഒന്നും ശാസ്‌ത്രീയമായി വിന്യസിച്ച്‌ 500 ഓളം ഭാഷകളെ യൂണികോഡില്‍ എത്തിച്ചു കഴിഞ്ഞു. ഇപ്പോഴും കൂടുതല്‍ അക്ഷരശൈലികളും ഭാഷകളും യൂണികോഡിലേക്ക്‌ എത്തിക്കൊണ്ടിരിക്കുന്നു. ഒന്‍പത്‌ ഭാരതീയ ഭാഷകള്‍ക്കായി 1152 (9 X 128 = 1152) കോഡുകള്‍ അനുവദിച്ചിട്ടുണ്ട്‌. 3328 മുതല്‍ 3455(0D00 - 0D7F) വരെയുള്ള കോഡുകള്‍ മലയാള ലിപി ഫോണ്ടുകള്‍ക്കായി നീക്കി വച്ചിരിക്കുന്നു. പക്ഷെ, ഈ അക്ഷരങ്ങള്‍ എങ്ങനെ സ്‌ക്രീനിലും അച്ചടിയിലും ദൃശ്യമാകണമെന്ന്‌ തീരുമാനിക്കേണ്ടത്‌ കംപ്യൂട്ടര്‍ ഹാര്‍ഡ്‌വെയര്‍ സോഫ്‌ട്‌വെയര്‍ രംഗത്ത്‌ പ്രവര്‍ത്തിക്കുന്ന സാങ്കേതിക വിദഗ്‌ധരും സ്ഥാപനങ്ങളുമാണ്‌. യൂണികോഡ്‌ വഴി 65536 അക്ഷരങ്ങള്‍ ഉള്‍ക്കൊള്ളിക്കാനാകും. ലോകത്തില്‍ ഇന്ന്‌ പ്രചാരത്തിലിരിക്കുന്ന ഭാഷകള്‍ക്കിതു മതിയാകും. ഇതിലൂടെ ഓരോ പ്രാദേശിക ഭാഷക്കും അതിന്റെ ഇടം കംപ്യൂട്ടറില്‍ ലഭിക്കും. യൂണികോഡ്‌ മലയാളം, മലയാള ലിപിയായി തന്നെ കംപ്യൂട്ടര്‍ മനസിലാക്കുന്നു. സിസ്റ്റത്തില്‍ എതെങ്കിലും ഒരു യൂണികോഡ്‌ ഫോണ്ട്‌ (രചന,അഞ്‌ജലി) ഉണ്ടായാല്‍ മതിയാകും.ആ ഫോണ്ടിന്റെ അക്ഷര ഭംഗിയില്‍ മാറ്റര്‍ വായിക്കാം. പക്ഷെ മലയാളത്തില്‍ 900 ലധികം (വിവിധ കൂട്ടക്ഷരങ്ങളടക്കം) അക്ഷരങ്ങളുള്ളപ്പോള്‍ 256 ഉപയോഗിച്ച്‌ എങ്ങനെ ഇതെല്ലാം ദൃശ്യമാക്കാനാകും.

വിടെയാണ്‌ ഓപ്പണ്‍ ടൈപ്പ്‌ ഫോണ്ട്‌ സാങ്കേതികവിദ്യ സഹായത്തിനെത്തുന്നത്‌. യൂണികോഡും ഓപ്പണ്‍ ടൈപ്പ്‌ കൂടിയായാല്‍ എല്ലാ അക്ഷരങ്ങളെയും അക്ഷരക്കൂട്ടങ്ങളെയും അതേ രീതിയില്‍ തന്നെ ദൃശ്യമാക്കാം. പ #്‌ ര എന്നതിന്‌ പകരം പ്ര എന്നു തന്നെ കാണിക്കാം. സ്വതന്ത്ര സോഫ്‌ട്‌വെയര്‍ സംരഭങ്ങള്‍ യൂണികോഡ്‌ ഫോണ്ടുകള്‍ വ്യാപകമായി ഉപയോഗിച്ച്‌ വരുന്നുണ്ട്‌. ഏത്‌ പ്ലാറ്റ്‌ഫോമിലും, ഏത്‌ ആപ്ലിക്കേഷനിലും ഉപയോഗിക്കാമെന്നത്‌ യൂണികോഡിനെ ജനകീയമാക്കുന്നു. നിലവില്‍ യൂണികോഡ്‌ അധിഷ്‌ഠിത ഫോണ്ടുകള്‍ മലയാളത്തില്‍ കുറവാണെങ്കിലും കൂടുതല്‍ വ്യാപകമാകുന്നതോടെ ഒട്ടേറെ അക്ഷരരൂപങ്ങള്‍ വികസിപ്പിച്ചെടുക്കുമെന്ന്‌ പ്രതീക്ഷിക്കാം. പ്രാദേശിക ഭാഷാ കംപ്യൂട്ടിംഗിന്‌ യൂണികോഡ്‌ ഒരു അനിവാര്യതയായി കഴിഞ്ഞു. ഇ-ഗവേണന്‍സ്‌, ഇ-വായന പോലുള്ള പദ്ധതികള്‍ കൂടുതല്‍ ഫലപ്രദമാക്കാന്‍ മലയാളം യൂണികോഡിലുള്ള അക്ഷരശൈലി ഉപകരിക്കുമെന്നത്‌ മേന്മയാണ്‌.
( വിവരങ്ങള്‍ക്ക്‌ സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിംഗ്‌ സംഘത്തോട്‌ കടപ്പാട്‌ )