Obliczenia indyjskie
Indic Computing oznacza „komputery w języku indyjskim ”, tj. skrypty i języki indyjskie. Obejmuje tworzenie oprogramowania w skryptach/językach indyjskich , metodach wprowadzania danych , lokalizacji aplikacji komputerowych, tworzeniu stron internetowych , zarządzaniu bazami danych , sprawdzaniu pisowni , aplikacjach zamiany mowy na tekst i zamianę tekstu na mowę oraz OCR w językach indyjskich .
Większość powszechnie używanych skryptów indyjskich jest zakodowana w Unicode do pracy na komputerach i Internecie. Od wersji 10.0 bengalski , dewanagari , gudżarati , gurmukhi , kannada , limbu , malajalam , masaram gondi , newari , ol chiki , orija , syngaleski , tamilski i telugu skrypty są zakodowane i obsługiwane. Uwzględniono również historycznie używane systemy pisma, takie jak Arwi , alfabet Ahom , Grantha , Khudabadi , Mahajani , alfabet Modi , skrypt Siddham , Syloti Nagri , Tirhuta . Niektóre inne skrypty indyjskie są w fazie rozwoju i zostaną włączone do Unicode, na przykład Tulu Script .
Trwa wiele projektów Indic Computing. Obejmują one niektóre firmy sektora rządowego, niektóre grupy wolontariuszy i pojedyncze osoby.
Sektor rządowy
Rząd Unii Indii nałożył na firmy telefonii komórkowej, których telefony są produkowane, przechowywane, sprzedawane i dystrybuowane w Indiach, obowiązek obsługi czytania tekstu we wszystkich 22 językach . Ten ruch spowodował wzrost używania języków indyjskich przez miliony użytkowników.
TDIL
Departament Elektroniki i Technologii Informacyjnych w Indiach zainicjował TDIL (Rozwój technologii dla języków indyjskich) w celu opracowania narzędzi i technik przetwarzania informacji w celu ułatwienia interakcji człowiek-maszyna bez barier językowych; tworzenie i dostęp do wielojęzycznych zasobów wiedzy; oraz integrowanie ich w celu opracowywania innowacyjnych produktów i usług dla użytkowników.
W 2005 roku firma rozpoczęła dystrybucję oprogramowania językowego opracowanego przez firmy rządowe/akademickie/prywatne w formie płyt CD do użytku niekomercyjnego.
Niektóre wyniki programu TDIL wdrożonego w Centrum rozprzestrzeniania i wdrażania technologii języka indyjskiego. To Centrum rozpowszechnia wszystkie zasoby językowe, narzędzia i aplikacje, które zostały opracowane w ramach finansowania TDIL. Program ten rozwijał się wykładniczo pod kierownictwem dr Swarana Laty, który również stworzył międzynarodowy ślad programu. Obecnie przeszła na emeryturę.
C-DAC
C-DAC jest indyjską rządową firmą programistyczną, która jest zaangażowana w tworzenie oprogramowania związanego z językami. Najbardziej znana jest z opracowywania InScript Keyboard , standardowej klawiatury dla języków indyjskich. Opracowała również wiele rozwiązań w języku indyjskim, w tym edytory tekstu, narzędzia do pisania, oprogramowanie do zamiany tekstu na mowę, OCR w językach indyjskich itp.
BharateeyaOO.org
Praca rozwinięta z CDAC, Bangalore (wcześniej znana jako NCST, Bangalore) stała się BharateeyaOO. OpenOffice 2.1 obsługiwał ponad 10 języków indyjskich.
SZEF
BOSS jest rozwijany przez National Resource Center dla wolnego/otwartego oprogramowania, z inicjatywy DIT. Jego działania są koordynowane przez C-DAC Chennai i Anna University KBC Research Center. Centra wsparcia zostały utworzone w kilku miastach w Indiach, aby zapewnić wsparcie Użytkownikom.
organizacje pozarządowe i grupy wolontariuszy
Indlinux
Organizacja Indlinux pomogła zorganizować indywidualnych wolontariuszy pracujących nad różnymi wersjami językowymi Linuksa i jego aplikacji.
Sarowar
Sarovar.org to pierwszy portal w Indiach , który obsługuje projekty na licencji Free/Open source. Znajduje się w Trivandrum w Indiach i jest hostowany w centrum danych Asianet. Sarovar.org jest dostosowywany, instalowany i utrzymywany przez Linuxense w ramach ich usług społecznościowych i sponsorowany przez River Valley Technologies. Sarovar.org jest zbudowany na Debianie Etch i GForge i działa na METTLE.
Pinaak
Pinaak to pozarządowa organizacja charytatywna zajmująca się informatyką w języku indyjskim. Zajmuje się lokalizacją oprogramowania, rozwojem oprogramowania językowego, lokalizacją oprogramowania open source, wzbogacaniem encyklopedii internetowych itp. Oprócz tego Pinaak zajmuje się edukacją ludzi w zakresie informatyki, etycznego korzystania z Internetu i używania języków indyjskich w Internecie.
Grupa Ankur
Grupa Ankur pracuje nad obsługą języka bengalskiego ( bengalskiego ) w systemie operacyjnym Linux , w tym zlokalizowanego bengalskiego GUI, Live CD , tłumacza z angielskiego na bengalski, bengalskiego OCR i bengalskiego słownika itp.
BhashaIndie
SMC
SMC to grupa zajmująca się wolnym oprogramowaniem, pracująca nad zmniejszeniem przepaści językowej w Kerali na froncie technologicznym i jest obecnie największą społecznością zajmującą się informatyką językową w Indiach.
Metody wprowadzania
Pełnowymiarowe klawiatury
Wraz z pojawieniem się Unicode wprowadzanie tekstu indyjskiego na komputerze stało się bardzo łatwe. W tym celu istnieje wiele metod, ale główne z nich to: -
Inskrypcja
Inscript to standardowa klawiatura dla języków indyjskich. Opracowany przez C-DAC i znormalizowany przez rząd Indii. Obecnie jest wbudowany we wszystkie główne systemy operacyjne, w tym Microsoft Windows (2000, XP, Vista, 7), Linux i Macintosh .
Transliteracja fonetyczna
Jest to metoda pisania, w której na przykład użytkownik wpisuje tekst w języku indyjskim przy użyciu znaków łacińskich i jest on fonetycznie konwertowany na równoważny tekst w alfabecie indyjskim w czasie rzeczywistym. Ten rodzaj konwersji jest wykonywany przez fonetyczne edytory tekstu, edytory tekstu i wtyczki programowe. Opierając się na tym pomyśle, można użyć fonetycznych narzędzi IME , które umożliwiają wprowadzanie tekstu indyjskiego w dowolnej aplikacji.
Niektóre przykłady transliteratorów fonetycznych to Xlit, Google Indic Transliteration , BarahaIME, Indic IME, Rupantar, SMC's Indic Keyboard i Microsoft Indic Language Input Tool . Klawiatura indyjska SMC obsługuje aż 23 języki, podczas gdy klawiatura indyjska Google obsługuje tylko 11 języków indyjskich.
Można je ogólnie sklasyfikować jako:
- Narzędzia oparte na stałym schemacie transliteracji – działają przy użyciu stałego schematu transliteracji do konwersji tekstu. Niektóre przykłady to Indic IME, Rupantar i BarahaIME.
- Inteligentne/uczące się narzędzia do transliteracji — porównują słowo ze słownikiem, a następnie konwertują je na równoważne słowa w języku docelowym. Niektóre z popularnych to Google Indic Transliteration , Xlit, Microsoft Indic Language Input Tool i QuillPad.
Remington (maszyna do pisania)
Ten układ został opracowany, gdy komputery nie zostały wynalezione ani wdrożone z językami indyjskimi, a maszyny do pisania były jedynym sposobem wpisywania tekstu w skryptach indyjskich. Ponieważ maszyny do pisania były mechaniczne i nie mogły zawierać silnika procesora skryptów, każdy znak musiał być umieszczony na klawiaturze osobno, co skutkowało bardzo złożonym i trudnym do opanowania układem klawiatury.
Wraz z pojawieniem się Unicode , układ Remington został dodany do różnych narzędzi do pisania ze względu na kompatybilność wsteczną, dzięki czemu starzy maszynistki nie musiały uczyć się nowego układu klawiatury. Obecnie ten układ jest używany tylko przez starych maszynistek, które są przyzwyczajone do tego układu ze względu na kilka lat użytkowania. Jednym z narzędzi do uwzględnienia układu Remington jest Indic IME. Czcionka oparta na układzie klawiatury Remington to Kruti Dev . Innym narzędziem online, które bardzo ściśle obsługuje stary układ klawiatury Remington przy użyciu Kruti Dev, jest narzędzie Remington Typing.
Brajl
IBus Sharada Braille, który obsługuje siedem języków indyjskich, został opracowany przez SMC .
Telefony komórkowe z klawiaturą numeryczną
Podstawowe modele telefonów komórkowych / ręcznych / komórkowych mają 12 klawiszy, takich jak zwykła klawiatura starego telefonu. Każdy klawisz jest odwzorowany na 3 lub 4 angielskie litery, aby ułatwić wprowadzanie danych w języku angielskim. Aby wprowadzić języki indyjskie za pomocą tego rodzaju klawiatury, można to zrobić na dwa sposoby. Pierwsza to metoda Multi-tap, a druga wykorzystuje pomoc wizualną z ekranu, taką jak klawiatura Panini. Podstawowym zastosowaniem jest SMS . Rozmiar 140 znaków używany w językach angielskim/rzymskim może pomieścić tylko około 70 znaków językowych, gdy kompresja własnościowa Unicode jest używana kilka razy w celu zwiększenia rozmiaru pojedynczej wiadomości w złożonych językach skryptowych, takich jak hindi. Badanie badawcze dostępnych metod i zaleceń proponowanego standardu zostało opublikowane przez Broadband Wireless Consortium of India (BWCI).
Transliteracja/Metody fonetyczne
Angielski jest używany do pisania w językach indyjskich. QuillPad IndiSMS
Metody rodzime
W metodach natywnych litery języka są wyświetlane na ekranie odpowiadającym klawiszom numerycznym na podstawie prawdopodobieństw tych liter dla tego języka. Dostęp do dodatkowych liter można uzyskać za pomocą specjalnego klucza. Gdy słowo jest częściowo wpisane, prezentowane są opcje, z których użytkownik może dokonać wyboru.
Smartfony z klawiaturą Qwerty
Większość smartfonów ma około 35 klawiszy obsługujących głównie język angielski. Cyfry i niektóre symbole są dostępne za pomocą specjalnego klawisza o nazwie Alt. Indyjskie metody wprowadzania danych jeszcze się nie rozwinęły dla tego typu telefonów, ponieważ obsługa Unicode do renderowania nie jest powszechnie dostępna.
Dla smartfonów z klawiaturą programową/wirtualną
Inscript jest adaptowany do użytku na smartfonach. Dla telefonów z systemem Android, które mogą renderować języki indyjskie, dostępna jest aplikacja Swalekh Multilingual Keypad Multiling Keyboard. Gboard oferuje obsługę kilku języków indyjskich.
Lokalizacja
Lokalizacja oznacza tłumaczenie oprogramowania, systemów operacyjnych, stron internetowych itp. różnych aplikacji na język indyjski. W tym kierunku działają różne grupy wolontariuszy.
Wersja tamilska mandragory
Godnym uwagi przykładem jest tamilska wersja systemu Mandrake Linux (nieistniejącego od 2011 r.). Mówcy tamilscy w Toronto (Kanada) wypuścili Mandrake , oprogramowanie dla systemu Linux, wychodząc z wersją tamilską. Można zauważyć, że wszystkie funkcje są dostępne w języku tamilskim. W ten sposób wyeliminowano warunek znajomości języka angielskiego do korzystania z komputera dla tych, którzy znają tamilski.
IndLinux
IndLinux to grupa wolontariuszy, której celem jest przetłumaczenie systemu operacyjnego Linux na języki indyjskie. Dzięki wysiłkom tej grupy Linux został prawie całkowicie zlokalizowany w języku hindi i innych językach indyjskich.
Nipun
Nipun to internetowy system tłumaczeń, którego celem jest tłumaczenie różnych aplikacji w języku hindi . Jest częścią sieci Akshargram .
Lokalizowanie stron internetowych
Firma GoDaddy zlokalizowała swoją witrynę internetową w języku hindi , marathi i tamilskim , a także zauważyła, że 40% liczby połączeń w przypadku usługi IVR odbywa się w językach indyjskich.
Blogowanie indyjskie
Blogowanie indyjskie odnosi się do blogowania w językach indyjskich. Podejmowano różne wysiłki w celu promowania blogowania w językach indyjskich.
Portale społecznościowe
Niektóre sieci społecznościowe są uruchamiane w językach indyjskich.
Programowanie
Indyjskie języki programowania
- BangaBhasha - Programowanie w Bangla
- Programowanie w języku hindi
- Ezhil , język programowania w języku tamilskim
Ramy
Gherkin , popularny język specyficzny dla domeny , obsługuje gudżarati, hindi, kannada, pendżabski, tamilski, telugu i urdu
Biblioteki
Przetwarzanie języka naturalnego w językach indyjskich rośnie. Dostępnych jest kilka bibliotek, takich jak iNLTK, StanfordNLP.
Tłumaczenie
Google oferuje ulepszoną funkcję tłumaczenia na języki hindi, bengalski, marathi, tamilski, telugu, gudżarati, pendżabski, malajalam i kannada, a także obsługuje tryb offline. Firma Microsoft oferuje również tłumaczenia dla niektórych z tych języków.
Oprogramowanie
Stos języka indyjskiego
Na sympozjum zorganizowanym wspólnie przez FICCI i TDIL Ajay Prakash Sawhney, sekretarz Ministerstwa Elektroniki i Informatyki rządu Indii powiedział, że India Language Stack może pomóc pokonać bariery komunikacyjne.
Sprawdzanie pisowni
Narzędzia do transliteracji
Narzędzia do transliteracji pozwalają użytkownikom czytać tekst w innym skrypcie. Obecnie Aksharamukha jest narzędziem obsługującym większość indyjskich skryptów. Google oferuje również transliterację indyjską . Tekst z dowolnego z tych skryptów można przekonwertować na dowolny inny skrypt i odwrotnie. Podczas gdy Google i Microsoft zezwalają na transliterację z liter łacińskich na skrypty indyjskie.
Tekst na mowę
Carnegie Mellon University we współpracy z projektem Hear2Read opracował oprogramowanie do zamiany tekstu na mowę (TTS), które pomaga osobom niedowidzącym słuchać tekstu w rodzimych językach indyjskich. Obecnie język tamilski , a do końca 2016 roku spodziewane są wydania w języku hindi, bengalskim, gudżarati, marathi, kannada, pendżabskim i telugu.
Zamiana mowy na tekst
Rozpoznawanie głosu
Firma Apple Inc. dodała obsługę głównych języków indyjskich w Siri . Alexa firmy Amazon obsługuje język hindi i częściowo rozpoznaje główne języki indyjskie. Asystent Google obsługuje również główne języki indyjskie.
Międzynarodowe nazwy domen
System operacyjny
Wirtualni asystenci
Wirtualni asystenci oparci na sztucznej inteligencji Asystent Google zapewnia obsługę różnych języków indyjskich.
Wykorzystanie i wzrost
Według GoDaddy języki hindi , marathi i tamilski odpowiadały za 61% ruchu internetowego w Indiach . Mniej niż 1% treści online jest w językach indyjskich. Nowo utworzone najlepsze aplikacje obsługują wiele języków indyjskich i/lub promują treści w języku indyjskim. 61% indyjskich użytkowników WhatsApp komunikują się z nim przede wszystkim w swoich językach ojczystych. Niedawne badanie wykazało, że adopcja Internetu jest najwyższa wśród języków lokalnych, takich jak tamilski, hindi, kannada, bengalski, marathi, telugu, gudżarati i malajalam. Szacuje się, że marathi, bengalski, tamilski i telugu będą stanowić 30% całkowitej bazy użytkowników posługujących się językiem lokalnym w kraju. Obecnie najwyższy poziom rozpowszechnienia Internetu ma język tamilski (42%), następnie hindi (39%) i kannada (37%). Intex poinformował również, że 87% jego języka regionalnego pochodzi od osób posługujących się językiem hindi, bengalskim, tamilskim, gudżarati i marathi. Mobilne lawy poinformowało, że tamilski i malajalam są najpopularniejsze na ich telefonach, nawet bardziej niż hindi.