Mapa LRE

Mapa LRE (Language Resources and Evaluation) to ogólnodostępna duża baza danych dotycząca zasobów poświęconych przetwarzaniu języka naturalnego . Oryginalną cechą LRE Map jest to, że rekordy są gromadzone podczas składania różnych głównych dotyczących przetwarzania języka naturalnego . Rekordy są następnie czyszczone i gromadzone w globalnej bazie danych o nazwie „Mapa LRE”.

Mapa LRE ma być narzędziem do zbierania informacji o zasobach językowych, a jednocześnie stać się społecznością użytkowników, miejscem udostępniania i odkrywania zasobów, omawiania opinii, przekazywania informacji zwrotnych, odkrywania nowych trendów itp. To jest instrumentem odkrywania, wyszukiwania i dokumentowania zasobów językowych, rozumianych tutaj szeroko, zarówno jako dane, jak i narzędzia.

Ogrom informacji zawartych w Mapie można analizować na wiele różnych sposobów. Na przykład mapa LRE może dostarczyć informacji o najczęstszym typie zasobu, najczęściej reprezentowanym języku, aplikacjach, dla których zasoby są wykorzystywane lub są opracowywane, stosunku nowych zasobów do już istniejących lub sposobie, w jaki środki są dystrybuowane do społeczności.

Kontekst

Kilka instytucji na całym świecie prowadzi katalogi zasobów językowych ( ELRA , LDC , NICT Universal Catalogue, ACL Data and Code Repository, OLAC , LT World itp.). Jednak szacuje się, że tylko 10% istniejących zasobów jest znanych, albo poprzez dystrybucję katalogach lub poprzez bezpośrednią reklamę dostawców (strony internetowe itp.). Reszta pozostaje ukryta, a jedyne sytuacje, w których pojawia się na krótko, to prezentacja zasobu w kontekście artykułu naukowego lub raportu na jakiejś konferencji. Niemniej jednak nawet w tym przypadku może się zdarzyć, że zasób pozostaje w tle tylko dlatego, że badania nie skupiają się na zasobie per se .

Historia

Mapa LRE powstała pod nazwą „LREC Map” podczas przygotowań do konferencji LREC 2010. Dokładniej, pomysł był dyskutowany w ramach projektu FlaReNet, a we współpracy z ELRA i Instytutem Lingwistyki Komputerowej CNR w Pizie , Mapę wprowadzono na LREC 2010. Organizatorzy LREC poprosili autorów o dostarczenie podstawowych informacji na temat wszystkie zasoby (w szerokim tego słowa znaczeniu, tj. obejmujące narzędzia, standardy i pakiety ewaluacyjne), używane lub tworzone, opisane w swoich artykułach. Wszystkie te deskryptory zostały następnie zebrane w globalną macierz zwaną mapą LREC.

Ta sama metodologia i wymagania autorów zostały następnie zastosowane i rozszerzone na inne konferencje, a mianowicie COLING-2010, EMNLP-2010, RANLP-2011, LREC 2012, LREC 2014 i LREC 2016. Po tym uogólnieniu na inne konferencje, Mapa LREC została przemianowana na LRE Map .

Rozmiar i zawartość

Rozmiar bazy danych rośnie z czasem. Zebrane dane obejmują 4776 wpisów.

Każdy zasób jest opisany według następujących atrybutów:

Typ zasobu, np. leksykon , narzędzie do adnotacji, tagger/parser .
Stan produkcji zasobów, np. nowo utworzone zakończone, istniejące-zaktualizowane.
Dostępność zasobów, np. swobodnie dostępnych, z centrum danych.
Modalność zasobów, np. mowa , pismo, język migowy .
Wykorzystanie zasobów, np. rozpoznawanie nazwanych jednostek , identyfikacja języka , tłumaczenie maszynowe .
Język zasobów, np. angielski, 23 języki Unii Europejskiej, języki urzędowe Indii.

Używa

Mapa LRE jest bardzo ważnym narzędziem do tworzenia wykresów pola NLP. W porównaniu z innymi badanymi w oparciu o subiektywne oceny, mapa LRE składa się z rzeczywistych faktów.

Mapa ma ogromny potencjał do wielu zastosowań, oprócz tego, że jest narzędziem do zbierania informacji:

Jest to świetne narzędzie do monitorowania ewolucji dziedziny (przydatne dla grantodawców), jeśli jest stosowane w różnych kontekstach i czasach.
Można to postrzegać jako ogromny wspólny wysiłek, początek jeszcze większej współpracy nie tylko kilku liderów, ale wszystkich badaczy.
Jest to również środek „edukacyjny” w kierunku szerokiego uznania potrzeby działań metabadawczych przy aktywnym zaangażowaniu wielu osób.
Odgrywa również zasadniczą rolę we wprowadzaniu nowego pojęcia „cytowania zasobów”, które może stanowić nagrodę i środek naukowego uznania dla naukowców zaangażowanych w tworzenie zasobów.
Służy do pomocy przy organizacji konferencji terenowych, takich jak LREC .

Macierze pochodne

Dane zostały następnie oczyszczone i posortowane przez Josepha Marianiego (CNRS-LIMSI IMMI) i Gila Francopoulo (CNRS-LIMSI IMMI + Tagmatica) w celu obliczenia różnych macierzy końcowych raportów FLaReNet. Jedna z nich, matryca danych zapisanych na LREC 2010, przedstawia się następująco:

	Ciało	Leksykon	Ontologia	Model gramatyki/języka	Terminologia
bułgarski	7	6	1	1	1
Czech	12	7	2	1	1
duński	6	2	0	2	0
Holenderski	17	8	2	1	2
język angielski	206	77	18	11	10
estoński	3	1	0	0	1
fiński	3	2	0	1	0
Francuski	44	24	3	4	5
Niemiecki	43	15	4	2	3
grecki	10	3	2	0	0
język węgierski	8	4	0	1	1
Irlandczyk	1	0	0	0	0
Włoski	32	16	4	2	0
łotewski	9	0	0	0	1
litewski	4	0	2	0	1
maltański	1	0	0	1	0
Polski	7	2	1	2	1
portugalski	19	6	1	1	0
rumuński	12	7	1	1	0
słowacki	2	0	0	1	0
słowieński	5	1	0	0	0
hiszpański	29	19	4	5	2
szwedzki	19	4	0	1	0
Inna Europa	19	11	3	3	2
Europa regionalna	18	8	0	1	3
Wielojęzyczny	5	3	1	0	1
Niezależne od języka	9	3	16	2	1
Nie dotyczy	2	0	2	1	0
Całkowity	552	229	67	45	36

Język angielski jest najczęściej studiowanym językiem. Po drugie, przychodzą języki francuski i niemiecki, a następnie włoski i hiszpański.

Przyszły

Mapa LRE została rozszerzona o zasoby językowe i dziennik oceny oraz inne konferencje.

Linki zewnętrzne

Strona badania mapy LREC