Laboratorium wywiadu medycznego i inżynierii językowej

Laboratorium Inteligencji Medycznej i Inżynierii Językowej , znane również jako laboratorium MILE , jest laboratorium badawczym w Indyjskim Instytucie Nauki w Bangalore na Wydziale Inżynierii Elektrycznej. Laboratorium jest znane z prac nad przetwarzaniem obrazu , rozpoznawaniem pisma ręcznego online , zamianą tekstu na mowę i systemami optycznego rozpoznawania znaków , z których wszystkie koncentrują się głównie na dokumentach i mowie w języki indyjskie . Laboratorium jest kierowane przez AG Ramakrishnan .

Koncentracja na badaniach

Jednym z zadań laboratorium MILE jest rozwój technologii dla osób z wadami wzroku w celu wykorzystania wiedzy z wszelkich dostępnych materiałów drukowanych w językach indyjskich. Laboratorium pracuje nad osiągnięciem tego celu. Jego dotychczasowa praca obejmowała: mozaikowanie dokumentów z kolorowych obrazów zarejestrowanych aparatem; ekstrakcja tekstu ze złożonych obrazów kolorowych, w tym obrazów przechwyconych aparatem; analiza układu dokumentu ; wykrywanie uszkodzonych i połączonych znaków; Technologia OCR dla języka tamilskiego i kannada; konwersja tekstu na mowę w języku tamilskim i kannada ; modyfikacja wysokości tonu przy użyciu dyskretnej transformaty kosinusowej w domenie źródłowej; zautomatyzowane części mowy ; przewidywanie fraz i modelowanie prozodii.

Mozhi Vallan, tamilski produkt OCR opracowany przez MILE Lab, jest używany przez Worth Trust i Karna Vidya Technology Centre w Chennai do konwersji drukowanych podręczników szkolnych i uniwersyteckich na format Braille'a . Sri Ramakrishna Math, Chennai używa go do konwersji swoich drukowanych książek filozoficznych w języku tamilskim na tekst czytelny dla komputera. Lipi Gnani, Kannada OCR opracowany przez MILE Lab jest używany przez Centra Transkrypcji Braille'a w Mitrajyothi i Canara Bank Relief & Welfare Society w Bangalore do podobnych celów. Również Thirukkural, tamilski TTS system opracowany przez MILE Lab jest używany przez niektórych nauczycieli szkolnych w Singapurze do zadań. Madhura, kannada TTS opracowany przez laboratorium, jest używany przez dwóch niewidomych studentów, zintegrowany z czytnikiem ekranu , do czytania na głos tekstu OCR z Lipi Gnani z książek kannada. Obecnie laboratorium prowadzi badania nad słuchaniem maszynowym i zaproponowano nową funkcję czasową nazwaną wskaźnikiem plozji, która okazała się niezwykle skuteczna w wykrywaniu przejść między seriami zamykającymi spółgłosek zwartych i afrykatów w mowie ciągłej, nawet w hałasie . Inną proponowaną funkcją jest DCTILPR, który jest wektorem funkcji opartym na źródle głosu, który poprawia wydajność rozpoznawania systemu identyfikacji mówcy .

Na początku wykonano znaczną pracę w zakresie przetwarzania sygnałów medycznych i obrazów. Zaproponowano unikalny algorytm kompresji EKG , traktując każdy cykl serca jako wektor i stosując predykcję liniową na dyskretnej transformacji falkowej tego wektora, po znormalizowaniu jego okresu za pomocą interpolacji opartej na przetwarzaniu wieloczęstotliwościowym . Dojrzałość płuca płodu przewidywano na podstawie cech tekstury obrazu uzyskanego z wątroby i okolic płuc obrazów ultrasonograficznych kobiet w ciąży Zaproponowano skuteczną technikę bezstratnej kompresji trójwymiarowych obrazów rezonansu magnetycznego mózgu . Każdy wycinek MRI był reprezentowany przez jednolitą lub adaptacyjną siatkę; zastosowano transformację afiniczną między odpowiednimi elementami siatki sąsiednich przekrojów i oparte na kontekście kodowanie entropijne na resztach.

Linki zewnętrzne