എ ഐ നന്നായി മലയാളം പറയാൻ പഠിക്കുന്നു

ആർട്ടിഫിഷ്യൽ ജനറൽ ഇന്‍റലിജൻസ് (AGI) മനുഷ്യരാശിക്ക് മുഴുവൻ പ്രയോജനകരമാവുക എന്ന ലക്ഷ്യത്തോടെ, ലോകത്തിലെ ഏറ്റവും വൈവിധ്യമാർന്ന രാജ്യങ്ങളിലൊന്നായ ഇന്ത്യയുടെ സാംസ്കാരിക സൂക്ഷ്മതകളിലും പ്രാദേശിക ഭാഷകളിലും എഐ മോഡലുകളുടെ പ്രകടനം അളക്കുന്നതിനായി ‘IndQA’ എന്ന വിപ്ലവകരമായ ബെഞ്ച്മാർക്ക് പുറത്തിറക്കി. ആർട്ടിഫിഷ്യൽ ഇന്‍റലിജൻസ് (AI) മോഡലുകളെ പരീക്ഷിക്കുന്നതിനുള്ള ഒരു പുതിയ അളവുകോലാണിത്. ലോക ജനസംഖ്യയുടെ ഏകദേശം 80 ശതമാനം പേർ ഇംഗ്ലീഷ് പ്രാഥമിക ഭാഷയായി ഉപയോഗിക്കാത്ത സാഹചര്യത്തിൽ, നിലവിലുള്ള മൾട്ടി ലിംഗ്വൽ ബെഞ്ച്മാർക്കുകളുടെ പോരായ്മകൾ പരിഹരിച്ചുകൊണ്ടാണ് ഈ പുതിയ അളവുകോൽ വരുന്നത്. നിലവിലെ മൾട്ടി ലിംഗ്വൽ ബെഞ്ച്മാർക്കുകൾ കൂടുതലായും വിവർത്തനം അല്ലെങ്കിൽ മൾട്ടിപ്പിൾ-ചോയ്സ് ടാസ്‌ക്കുകളിലാണ് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. ഇതിന് വിപരീതമായി, സന്ദർഭം, സംസ്കാരം, ചരിത്രം, പ്രാദേശികമായി പ്രാധാന്യമുള്ള കാര്യങ്ങൾ എന്നിവ എഐ സംവിധാനങ്ങൾ എത്രത്തോളം മനസ്സിലാക്കുന്നു എന്ന് വിലയിരുത്തുന്നതിനാണ് IndQA രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത്. ഇന്ത്യയെ ഈ ഉദ്യമത്തിന്‍റെ ആദ്യ ഘട്ടത്തിനായി തിരഞ്ഞെടുത്തതിന് കാരണം, ഏകദേശം ഒരു ബില്യൺ നോൺ-ഇംഗ്ലീഷ് ഉപയോക്താക്കളുള്ള രാജ്യമാണ് ഇന്ത്യ എന്നതിനാലാണ്. കൂടാതെ, 22 ഔദ്യോഗിക ഭാഷകളുള്ള ഇന്ത്യ, ChatGPT-യുടെ ലോകത്തിലെ രണ്ടാമത്തെ വലിയ വിപണിയുമാണ്. IndQA വഴി AI മോഡലുകൾക്ക് ഇന്ത്യയെക്കുറിച്ചും ഇവിടുത്തെ ജീവിതരീതികളെക്കുറിച്ചും കൂടുതൽ അറിവ് ലഭിക്കുമ്പോൾ, ഇന്ത്യൻ ഉപയോക്താക്കൾക്ക് കൂടുതൽ കൃത്യവും പ്രസക്തവുമായ വിവരങ്ങൾ AI-യിൽ നിന്ന് ലഭിക്കാൻ തുടങ്ങും.

IndQA-യുടെ പ്രാധാന്യം
നിലവിലുള്ള മിക്ക AI മോഡലുകളും പ്രധാനമായും വിവർത്തനം, എളുപ്പത്തിൽ ഒരുത്തരം മാത്രം കിട്ടുന്ന ചോദ്യങ്ങൾ, തുടങ്ങിയവയിൽ മാത്രമാണ് നല്ല റിസൾട്ട് തരുന്നത്. ഉദാഹരണമായി കേരളത്തിലെ ഓണത്തെക്കുറിച്ചോ ബംഗാളിലെ ദുർഗ്ഗാ പൂജയെക്കുറിച്ചോ ഒക്കെ ആഴത്തിലുള്ള ചോദ്യങ്ങൾ ചോദിക്കുമ്പോൾ, AI-ക്ക് ഉത്തരം പറയാൻ കൂടുതൽ യുക്തിചിന്തയും ആഴത്തിലുള്ള അറിവും ആവശ്യമായി വരും. ഇത്തരം ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാൻ കഴിയുന്ന വിധം AI-യെ കൂടുതൽ മെച്ചപ്പെടുത്താൻ സഹായിക്കുന്ന ഒരു ‘വഴികാട്ടി’ ആകും IndQA. ഇംഗ്ലീഷ് സംസാരിക്കുന്ന ഒരു രാജ്യത്തെ പൗരനെപ്പോലെ ചിന്തിക്കാതെ, ഒരു ശരാശരി ഇന്ത്യക്കാരനെപ്പോലെ ചിന്തിക്കാൻ AI-യെ പരിശീലിപ്പിക്കാൻ IndQA സഹായിക്കുന്നു.

മിക്ക AI മോഡലുകളും ഇംഗ്ലീഷിലാണ് കൂടുതൽ കാര്യങ്ങൾ പഠിച്ചിട്ടുള്ളത്. ലോകത്ത് ഒരുപാട് ആളുകൾ ഹിന്ദി, മലയാളം, തമിഴ്, തെലുങ്ക് പോലുള്ള ഭാഷകളാണ് സംസാരിക്കുന്നത്. ഈ ആളുകൾക്ക് AI-യുടെ പ്രയോജനം ലഭിക്കണമെങ്കിൽ, AI-ക്ക് ഈ ഭാഷകളും, ഇന്ത്യൻ സംസ്കാരവും, ചരിത്രവും, ദൈനംദിന ജീവിതവും മനസ്സിലാക്കാൻ കഴിയണം.

ഇന്ത്യയിലുടനീളമുള്ള 261 ഡൊമൈന്‍ വിദഗ്ദരുടെ സഹകരണത്തോടെയാണ് ഇന്‍ഡ്ക്യുഎ വികസിപ്പിച്ചെടുത്ത്. 12 ഇന്ത്യന്‍ ഭാഷകള്‍, സാഹിത്യം, ഭക്ഷണം, ചരിത്രം, ആത്മീയത, ദൈനംദിനജീവിതം ഉള്‍പ്പടെയുള്ള സാംസ്‌കാരിക വിഷയങ്ങള്‍ എന്നിവയുമായി ബന്ധപ്പെട്ട 2278 ചോദ്യങ്ങള്‍ ഇതില്‍ ഉള്‍പ്പെടുന്നു.

IndQA ഒരു സാധാരണ ടെസ്റ്റ് പോലെയല്ല പ്രവർത്തിക്കുന്നത്. AI മോഡലുകൾക്ക് മാർക്കിടുന്നതിനായി “റൂബ്രിക് അടിസ്ഥാനമാക്കിയുള്ള സമീപനം” (Rubric-Based Approach) ആണ് ഉപയോഗിക്കുന്നത്. ഒരു ഉത്തരത്തിൽ എന്തെല്ലാം പ്രധാന പോയിന്‍റുകൾ ഉൾപ്പെടുത്തണം, ഏതൊക്കെ ഒഴിവാക്കണം എന്ന് ഈ റൂബ്രിക് വ്യക്തമാക്കും. ഓരോ മാനദണ്ഡത്തിനും അതിന്‍റെ പ്രാധാന്യം അനുസരിച്ച് മാർക്ക് മൂല്യം നിശ്ചയിക്കും. ഒരു ചോദ്യത്തിന് നിശ്ചയിച്ച മൊത്തം പോയിന്‍റിൽ നിന്ന്, AI സംതൃപ്തമാക്കിയ മാനദണ്ഡങ്ങളുടെ പോയിന്‍റുകൾ എല്ലാം കൂട്ടിച്ചേർത്ത് അന്തിമ സ്കോർ കണക്കാക്കുന്നു. ലഭിച്ച സ്കോർ AI മോഡലിന്‍റെ പരിശീലന പ്രക്രിയയിലെ ഒരു ഫീഡ്‌ബാക്ക് ലൂപ്പാണ്. ആ സ്കോർ പരിശോധിച്ച്, കുറവുകൾ മനസ്സിലാക്കി, പുതിയ മോഡലുകൾ മികച്ചതാക്കാൻ ശ്രമിക്കും. ചുരുക്കത്തിൽ ഈ പുതിയ സാങ്കേതികവിദ്യ നിങ്ങളുടെ ഭാഷയ്ക്കും ജീവിതരീതിക്കും കൂടുതൽ ഇണങ്ങിയ ഒരു സഹായിയായി ഉടൻ മാറും.

About The Author