Mapa LRE

Mapa LRE (Language Resources and Evaluation) to ogólnodostępna duża baza danych dotycząca zasobów poświęconych przetwarzaniu języka naturalnego . Oryginalną cechą LRE Map jest to, że rekordy są gromadzone podczas składania różnych głównych dotyczących przetwarzania języka naturalnego . Rekordy są następnie czyszczone i gromadzone w globalnej bazie danych o nazwie „Mapa LRE”.

Mapa LRE ma być narzędziem do zbierania informacji o zasobach językowych, a jednocześnie stać się społecznością użytkowników, miejscem udostępniania i odkrywania zasobów, omawiania opinii, przekazywania informacji zwrotnych, odkrywania nowych trendów itp. To jest instrumentem odkrywania, wyszukiwania i dokumentowania zasobów językowych, rozumianych tutaj szeroko, zarówno jako dane, jak i narzędzia.

Ogrom informacji zawartych w Mapie można analizować na wiele różnych sposobów. Na przykład mapa LRE może dostarczyć informacji o najczęstszym typie zasobu, najczęściej reprezentowanym języku, aplikacjach, dla których zasoby są wykorzystywane lub są opracowywane, stosunku nowych zasobów do już istniejących lub sposobie, w jaki środki są dystrybuowane do społeczności.

Kontekst

Kilka instytucji na całym świecie prowadzi katalogi zasobów językowych ( ELRA , LDC , NICT Universal Catalogue, ACL Data and Code Repository, OLAC , LT World itp.). Jednak szacuje się, że tylko 10% istniejących zasobów jest znanych, albo poprzez dystrybucję katalogach lub poprzez bezpośrednią reklamę dostawców (strony internetowe itp.). Reszta pozostaje ukryta, a jedyne sytuacje, w których pojawia się na krótko, to prezentacja zasobu w kontekście artykułu naukowego lub raportu na jakiejś konferencji. Niemniej jednak nawet w tym przypadku może się zdarzyć, że zasób pozostaje w tle tylko dlatego, że badania nie skupiają się na zasobie per se .

Historia

Mapa LRE powstała pod nazwą „LREC Map” podczas przygotowań do konferencji LREC 2010. Dokładniej, pomysł był dyskutowany w ramach projektu FlaReNet, a we współpracy z ELRA i Instytutem Lingwistyki Komputerowej CNR w Pizie , Mapę wprowadzono na LREC 2010. Organizatorzy LREC poprosili autorów o dostarczenie podstawowych informacji na temat wszystkie zasoby (w szerokim tego słowa znaczeniu, tj. obejmujące narzędzia, standardy i pakiety ewaluacyjne), używane lub tworzone, opisane w swoich artykułach. Wszystkie te deskryptory zostały następnie zebrane w globalną macierz zwaną mapą LREC.


Ta sama metodologia i wymagania autorów zostały następnie zastosowane i rozszerzone na inne konferencje, a mianowicie COLING-2010, EMNLP-2010, RANLP-2011, LREC 2012, LREC 2014 i LREC 2016. Po tym uogólnieniu na inne konferencje, Mapa LREC została przemianowana na LRE Map .

Rozmiar i zawartość

Rozmiar bazy danych rośnie z czasem. Zebrane dane obejmują 4776 wpisów.

Każdy zasób jest opisany według następujących atrybutów:

Używa

Mapa LRE jest bardzo ważnym narzędziem do tworzenia wykresów pola NLP. W porównaniu z innymi badanymi w oparciu o subiektywne oceny, mapa LRE składa się z rzeczywistych faktów.

Mapa ma ogromny potencjał do wielu zastosowań, oprócz tego, że jest narzędziem do zbierania informacji:

  • Jest to świetne narzędzie do monitorowania ewolucji dziedziny (przydatne dla grantodawców), jeśli jest stosowane w różnych kontekstach i czasach.
  • Można to postrzegać jako ogromny wspólny wysiłek, początek jeszcze większej współpracy nie tylko kilku liderów, ale wszystkich badaczy.
  • Jest to również środek „edukacyjny” w kierunku szerokiego uznania potrzeby działań metabadawczych przy aktywnym zaangażowaniu wielu osób.
  • Odgrywa również zasadniczą rolę we wprowadzaniu nowego pojęcia „cytowania zasobów”, które może stanowić nagrodę i środek naukowego uznania dla naukowców zaangażowanych w tworzenie zasobów.
  • Służy do pomocy przy organizacji konferencji terenowych, takich jak LREC .

Macierze pochodne

Dane zostały następnie oczyszczone i posortowane przez Josepha Marianiego (CNRS-LIMSI IMMI) i Gila Francopoulo (CNRS-LIMSI IMMI + Tagmatica) w celu obliczenia różnych macierzy końcowych raportów FLaReNet. Jedna z nich, matryca danych zapisanych na LREC 2010, przedstawia się następująco:

Ciało Leksykon Ontologia Model gramatyki/języka
Terminologia
bułgarski 7 6 1 1 1
Czech 12 7 2 1 1
duński 6 2 0 2 0
Holenderski 17 8 2 1 2
język angielski 206 77 18 11 10
estoński 3 1 0 0 1
fiński 3 2 0 1 0
Francuski 44 24 3 4 5
Niemiecki 43 15 4 2 3
grecki 10 3 2 0 0
język węgierski 8 4 0 1 1
Irlandczyk 1 0 0 0 0
Włoski 32 16 4 2 0
łotewski 9 0 0 0 1
litewski 4 0 2 0 1
maltański 1 0 0 1 0
Polski 7 2 1 2 1
portugalski 19 6 1 1 0
rumuński 12 7 1 1 0
słowacki 2 0 0 1 0
słowieński 5 1 0 0 0
hiszpański 29 19 4 5 2
szwedzki 19 4 0 1 0
Inna Europa 19 11 3 3 2
Europa regionalna 18 8 0 1 3
Wielojęzyczny 5 3 1 0 1
Niezależne od języka 9 3 16 2 1
Nie dotyczy 2 0 2 1 0
Całkowity 552 229 67 45 36

Język angielski jest najczęściej studiowanym językiem. Po drugie, przychodzą języki francuski i niemiecki, a następnie włoski i hiszpański.

Przyszły

Mapa LRE została rozszerzona o zasoby językowe i dziennik oceny oraz inne konferencje.

Linki zewnętrzne