Obliczenia indyjskie

Indic Computing oznacza „komputery w języku indyjskim ”, tj. skrypty i języki indyjskie. Obejmuje tworzenie oprogramowania w skryptach/językach indyjskich , metodach wprowadzania danych , lokalizacji aplikacji komputerowych, tworzeniu stron internetowych , zarządzaniu bazami danych , sprawdzaniu pisowni , aplikacjach zamiany mowy na tekst i zamianę tekstu na mowę oraz OCR w językach indyjskich .

Większość powszechnie używanych skryptów indyjskich jest zakodowana w Unicode do pracy na komputerach i Internecie. Od wersji 10.0 bengalski , dewanagari , gudżarati , gurmukhi , kannada , limbu , malajalam , masaram gondi , newari , ol chiki , orija , syngaleski , tamilski i telugu skrypty są zakodowane i obsługiwane. Uwzględniono również historycznie używane systemy pisma, takie jak Arwi , alfabet Ahom , Grantha , Khudabadi , Mahajani , alfabet Modi , skrypt Siddham , Syloti Nagri , Tirhuta . Niektóre inne skrypty indyjskie są w fazie rozwoju i zostaną włączone do Unicode, na przykład Tulu Script .

Trwa wiele projektów Indic Computing. Obejmują one niektóre firmy sektora rządowego, niektóre grupy wolontariuszy i pojedyncze osoby.

Sektor rządowy

Rząd Unii Indii nałożył na firmy telefonii komórkowej, których telefony są produkowane, przechowywane, sprzedawane i dystrybuowane w Indiach, obowiązek obsługi czytania tekstu we wszystkich 22 językach . Ten ruch spowodował wzrost używania języków indyjskich przez miliony użytkowników.

TDIL

Departament Elektroniki i Technologii Informacyjnych w Indiach zainicjował TDIL (Rozwój technologii dla języków indyjskich) w celu opracowania narzędzi i technik przetwarzania informacji w celu ułatwienia interakcji człowiek-maszyna bez barier językowych; tworzenie i dostęp do wielojęzycznych zasobów wiedzy; oraz integrowanie ich w celu opracowywania innowacyjnych produktów i usług dla użytkowników.

W 2005 roku firma rozpoczęła dystrybucję oprogramowania językowego opracowanego przez firmy rządowe/akademickie/prywatne w formie płyt CD do użytku niekomercyjnego.

Niektóre wyniki programu TDIL wdrożonego w Centrum rozprzestrzeniania i wdrażania technologii języka indyjskiego. To Centrum rozpowszechnia wszystkie zasoby językowe, narzędzia i aplikacje, które zostały opracowane w ramach finansowania TDIL. Program ten rozwijał się wykładniczo pod kierownictwem dr Swarana Laty, który również stworzył międzynarodowy ślad programu. Obecnie przeszła na emeryturę.

C-DAC

C-DAC jest indyjską rządową firmą programistyczną, która jest zaangażowana w tworzenie oprogramowania związanego z językami. Najbardziej znana jest z opracowywania InScript Keyboard , standardowej klawiatury dla języków indyjskich. Opracowała również wiele rozwiązań w języku indyjskim, w tym edytory tekstu, narzędzia do pisania, oprogramowanie do zamiany tekstu na mowę, OCR w językach indyjskich itp.

BharateeyaOO.org

Praca rozwinięta z CDAC, Bangalore (wcześniej znana jako NCST, Bangalore) stała się BharateeyaOO. OpenOffice 2.1 obsługiwał ponad 10 języków indyjskich.

SZEF

BOSS jest rozwijany przez National Resource Center dla wolnego/otwartego oprogramowania, z inicjatywy DIT. Jego działania są koordynowane przez C-DAC Chennai i Anna University KBC Research Center. Centra wsparcia zostały utworzone w kilku miastach w Indiach, aby zapewnić wsparcie Użytkownikom.

organizacje pozarządowe i grupy wolontariuszy

Indlinux

Organizacja Indlinux pomogła zorganizować indywidualnych wolontariuszy pracujących nad różnymi wersjami językowymi Linuksa i jego aplikacji.

Sarowar

Sarovar.org to pierwszy portal w Indiach , który obsługuje projekty na licencji Free/Open source. Znajduje się w Trivandrum w Indiach i jest hostowany w centrum danych Asianet. Sarovar.org jest dostosowywany, instalowany i utrzymywany przez Linuxense w ramach ich usług społecznościowych i sponsorowany przez River Valley Technologies. Sarovar.org jest zbudowany na Debianie Etch i GForge i działa na METTLE.

Pinaak

Pinaak to pozarządowa organizacja charytatywna zajmująca się informatyką w języku indyjskim. Zajmuje się lokalizacją oprogramowania, rozwojem oprogramowania językowego, lokalizacją oprogramowania open source, wzbogacaniem encyklopedii internetowych itp. Oprócz tego Pinaak zajmuje się edukacją ludzi w zakresie informatyki, etycznego korzystania z Internetu i używania języków indyjskich w Internecie.

Grupa Ankur

Grupa Ankur pracuje nad obsługą języka bengalskiego ( bengalskiego ) w systemie operacyjnym Linux , w tym zlokalizowanego bengalskiego GUI, Live CD , tłumacza z angielskiego na bengalski, bengalskiego OCR i bengalskiego słownika itp.

BhashaIndie

SMC

SMC to grupa zajmująca się wolnym oprogramowaniem, pracująca nad zmniejszeniem przepaści językowej w Kerali na froncie technologicznym i jest obecnie największą społecznością zajmującą się informatyką językową w Indiach.

Metody wprowadzania

Klawiatura Reverie zawiera listę obsługiwanych języków indyjskich do pisania w systemie Android

Pełnowymiarowe klawiatury

Wraz z pojawieniem się Unicode wprowadzanie tekstu indyjskiego na komputerze stało się bardzo łatwe. W tym celu istnieje wiele metod, ale główne z nich to: -

Inskrypcja

Inscript to standardowa klawiatura dla języków indyjskich. Opracowany przez C-DAC i znormalizowany przez rząd Indii. Obecnie jest wbudowany we wszystkie główne systemy operacyjne, w tym Microsoft Windows (2000, XP, Vista, 7), Linux i Macintosh .

Transliteracja fonetyczna

Jest to metoda pisania, w której na przykład użytkownik wpisuje tekst w języku indyjskim przy użyciu znaków łacińskich i jest on fonetycznie konwertowany na równoważny tekst w alfabecie indyjskim w czasie rzeczywistym. Ten rodzaj konwersji jest wykonywany przez fonetyczne edytory tekstu, edytory tekstu i wtyczki programowe. Opierając się na tym pomyśle, można użyć fonetycznych narzędzi IME , które umożliwiają wprowadzanie tekstu indyjskiego w dowolnej aplikacji.

Niektóre przykłady transliteratorów fonetycznych to Xlit, Google Indic Transliteration , BarahaIME, Indic IME, Rupantar, SMC's Indic Keyboard i Microsoft Indic Language Input Tool . Klawiatura indyjska SMC obsługuje aż 23 języki, podczas gdy klawiatura indyjska Google obsługuje tylko 11 języków indyjskich.

Można je ogólnie sklasyfikować jako:

  • Narzędzia oparte na stałym schemacie transliteracji – działają przy użyciu stałego schematu transliteracji do konwersji tekstu. Niektóre przykłady to Indic IME, Rupantar i BarahaIME.
  • Inteligentne/uczące się narzędzia do transliteracji — porównują słowo ze słownikiem, a następnie konwertują je na równoważne słowa w języku docelowym. Niektóre z popularnych to Google Indic Transliteration , Xlit, Microsoft Indic Language Input Tool i QuillPad.

Remington (maszyna do pisania)

Ten układ został opracowany, gdy komputery nie zostały wynalezione ani wdrożone z językami indyjskimi, a maszyny do pisania były jedynym sposobem wpisywania tekstu w skryptach indyjskich. Ponieważ maszyny do pisania były mechaniczne i nie mogły zawierać silnika procesora skryptów, każdy znak musiał być umieszczony na klawiaturze osobno, co skutkowało bardzo złożonym i trudnym do opanowania układem klawiatury.

Wraz z pojawieniem się Unicode , układ Remington został dodany do różnych narzędzi do pisania ze względu na kompatybilność wsteczną, dzięki czemu starzy maszynistki nie musiały uczyć się nowego układu klawiatury. Obecnie ten układ jest używany tylko przez starych maszynistek, które są przyzwyczajone do tego układu ze względu na kilka lat użytkowania. Jednym z narzędzi do uwzględnienia układu Remington jest Indic IME. Czcionka oparta na układzie klawiatury Remington to Kruti Dev . Innym narzędziem online, które bardzo ściśle obsługuje stary układ klawiatury Remington przy użyciu Kruti Dev, jest narzędzie Remington Typing.

Brajl

IBus Sharada Braille, który obsługuje siedem języków indyjskich, został opracowany przez SMC .

Telefony komórkowe z klawiaturą numeryczną

Nokia 1108 Hindi

Podstawowe modele telefonów komórkowych / ręcznych / komórkowych mają 12 klawiszy, takich jak zwykła klawiatura starego telefonu. Każdy klawisz jest odwzorowany na 3 lub 4 angielskie litery, aby ułatwić wprowadzanie danych w języku angielskim. Aby wprowadzić języki indyjskie za pomocą tego rodzaju klawiatury, można to zrobić na dwa sposoby. Pierwsza to metoda Multi-tap, a druga wykorzystuje pomoc wizualną z ekranu, taką jak klawiatura Panini. Podstawowym zastosowaniem jest SMS . Rozmiar 140 znaków używany w językach angielskim/rzymskim może pomieścić tylko około 70 znaków językowych, gdy kompresja własnościowa Unicode jest używana kilka razy w celu zwiększenia rozmiaru pojedynczej wiadomości w złożonych językach skryptowych, takich jak hindi. Badanie badawcze dostępnych metod i zaleceń proponowanego standardu zostało opublikowane przez Broadband Wireless Consortium of India (BWCI).

Transliteracja/Metody fonetyczne

Angielski jest używany do pisania w językach indyjskich. QuillPad IndiSMS

Metody rodzime

W metodach natywnych litery języka są wyświetlane na ekranie odpowiadającym klawiszom numerycznym na podstawie prawdopodobieństw tych liter dla tego języka. Dostęp do dodatkowych liter można uzyskać za pomocą specjalnego klucza. Gdy słowo jest częściowo wpisane, prezentowane są opcje, z których użytkownik może dokonać wyboru.

Smartfony z klawiaturą Qwerty

Większość smartfonów ma około 35 klawiszy obsługujących głównie język angielski. Cyfry i niektóre symbole są dostępne za pomocą specjalnego klawisza o nazwie Alt. Indyjskie metody wprowadzania danych jeszcze się nie rozwinęły dla tego typu telefonów, ponieważ obsługa Unicode do renderowania nie jest powszechnie dostępna.

Dla smartfonów z klawiaturą programową/wirtualną

Inscript jest adaptowany do użytku na smartfonach. Dla telefonów z systemem Android, które mogą renderować języki indyjskie, dostępna jest aplikacja Swalekh Multilingual Keypad Multiling Keyboard. Gboard oferuje obsługę kilku języków indyjskich.

Lokalizacja

Lokalizacja oznacza tłumaczenie oprogramowania, systemów operacyjnych, stron internetowych itp. różnych aplikacji na język indyjski. W tym kierunku działają różne grupy wolontariuszy.

Wersja tamilska mandragory

Godnym uwagi przykładem jest tamilska wersja systemu Mandrake Linux (nieistniejącego od 2011 r.). Mówcy tamilscy w Toronto (Kanada) wypuścili Mandrake , oprogramowanie dla systemu Linux, wychodząc z wersją tamilską. Można zauważyć, że wszystkie funkcje są dostępne w języku tamilskim. W ten sposób wyeliminowano warunek znajomości języka angielskiego do korzystania z komputera dla tych, którzy znają tamilski.

IndLinux

IndLinux to grupa wolontariuszy, której celem jest przetłumaczenie systemu operacyjnego Linux na języki indyjskie. Dzięki wysiłkom tej grupy Linux został prawie całkowicie zlokalizowany w języku hindi i innych językach indyjskich.

Nipun

Nipun to internetowy system tłumaczeń, którego celem jest tłumaczenie różnych aplikacji w języku hindi . Jest częścią sieci Akshargram .

Lokalizowanie stron internetowych

Firma GoDaddy zlokalizowała swoją witrynę internetową w języku hindi , marathi i tamilskim , a także zauważyła, że ​​40% liczby połączeń w przypadku usługi IVR odbywa się w językach indyjskich.

Blogowanie indyjskie

Blogowanie indyjskie odnosi się do blogowania w językach indyjskich. Podejmowano różne wysiłki w celu promowania blogowania w językach indyjskich.

Portale społecznościowe

Niektóre sieci społecznościowe są uruchamiane w językach indyjskich.

Programowanie

Indyjskie języki programowania

Ramy

Gherkin , popularny język specyficzny dla domeny , obsługuje gudżarati, hindi, kannada, pendżabski, tamilski, telugu i urdu

Biblioteki

Przetwarzanie języka naturalnego w językach indyjskich rośnie. Dostępnych jest kilka bibliotek, takich jak iNLTK, StanfordNLP.

Tłumaczenie

Google oferuje ulepszoną funkcję tłumaczenia na języki hindi, bengalski, marathi, tamilski, telugu, gudżarati, pendżabski, malajalam i kannada, a także obsługuje tryb offline. Firma Microsoft oferuje również tłumaczenia dla niektórych z tych języków.

Oprogramowanie

Stos języka indyjskiego

Na sympozjum zorganizowanym wspólnie przez FICCI i TDIL Ajay Prakash Sawhney, sekretarz Ministerstwa Elektroniki i Informatyki rządu Indii powiedział, że India Language Stack może pomóc pokonać bariery komunikacyjne.

Sprawdzanie pisowni

Narzędzia do transliteracji

Narzędzia do transliteracji pozwalają użytkownikom czytać tekst w innym skrypcie. Obecnie Aksharamukha jest narzędziem obsługującym większość indyjskich skryptów. Google oferuje również transliterację indyjską . Tekst z dowolnego z tych skryptów można przekonwertować na dowolny inny skrypt i odwrotnie. Podczas gdy Google i Microsoft zezwalają na transliterację z liter łacińskich na skrypty indyjskie.

Tekst na mowę

Carnegie Mellon University we współpracy z projektem Hear2Read opracował oprogramowanie do zamiany tekstu na mowę (TTS), które pomaga osobom niedowidzącym słuchać tekstu w rodzimych językach indyjskich. Obecnie język tamilski , a do końca 2016 roku spodziewane są wydania w języku hindi, bengalskim, gudżarati, marathi, kannada, pendżabskim i telugu.

Zamiana mowy na tekst

Rozpoznawanie głosu

Firma Apple Inc. dodała obsługę głównych języków indyjskich w Siri . Alexa firmy Amazon obsługuje język hindi i częściowo rozpoznaje główne języki indyjskie. Asystent Google obsługuje również główne języki indyjskie.

Międzynarodowe nazwy domen

System operacyjny

Wirtualni asystenci

Wirtualni asystenci oparci na sztucznej inteligencji Asystent Google zapewnia obsługę różnych języków indyjskich.

Wykorzystanie i wzrost

Według GoDaddy języki hindi , marathi i tamilski odpowiadały za 61% ruchu internetowego w Indiach . Mniej niż 1% treści online jest w językach indyjskich. Nowo utworzone najlepsze aplikacje obsługują wiele języków indyjskich i/lub promują treści w języku indyjskim. 61% indyjskich użytkowników WhatsApp komunikują się z nim przede wszystkim w swoich językach ojczystych. Niedawne badanie wykazało, że adopcja Internetu jest najwyższa wśród języków lokalnych, takich jak tamilski, hindi, kannada, bengalski, marathi, telugu, gudżarati i malajalam. Szacuje się, że marathi, bengalski, tamilski i telugu będą stanowić 30% całkowitej bazy użytkowników posługujących się językiem lokalnym w kraju. Obecnie najwyższy poziom rozpowszechnienia Internetu ma język tamilski (42%), następnie hindi (39%) i kannada (37%). Intex poinformował również, że 87% jego języka regionalnego pochodzi od osób posługujących się językiem hindi, bengalskim, tamilskim, gudżarati i marathi. Mobilne lawy poinformowało, że tamilski i malajalam są najpopularniejsze na ich telefonach, nawet bardziej niż hindi.

Zobacz też