Mapa LRE
Mapa LRE (Language Resources and Evaluation) to ogólnodostępna duża baza danych dotycząca zasobów poświęconych przetwarzaniu języka naturalnego . Oryginalną cechą LRE Map jest to, że rekordy są gromadzone podczas składania różnych głównych dotyczących przetwarzania języka naturalnego . Rekordy są następnie czyszczone i gromadzone w globalnej bazie danych o nazwie „Mapa LRE”.
Mapa LRE ma być narzędziem do zbierania informacji o zasobach językowych, a jednocześnie stać się społecznością użytkowników, miejscem udostępniania i odkrywania zasobów, omawiania opinii, przekazywania informacji zwrotnych, odkrywania nowych trendów itp. To jest instrumentem odkrywania, wyszukiwania i dokumentowania zasobów językowych, rozumianych tutaj szeroko, zarówno jako dane, jak i narzędzia.
Ogrom informacji zawartych w Mapie można analizować na wiele różnych sposobów. Na przykład mapa LRE może dostarczyć informacji o najczęstszym typie zasobu, najczęściej reprezentowanym języku, aplikacjach, dla których zasoby są wykorzystywane lub są opracowywane, stosunku nowych zasobów do już istniejących lub sposobie, w jaki środki są dystrybuowane do społeczności.
Kontekst
Kilka instytucji na całym świecie prowadzi katalogi zasobów językowych ( ELRA , LDC , NICT Universal Catalogue, ACL Data and Code Repository, OLAC , LT World itp.). Jednak szacuje się, że tylko 10% istniejących zasobów jest znanych, albo poprzez dystrybucję katalogach lub poprzez bezpośrednią reklamę dostawców (strony internetowe itp.). Reszta pozostaje ukryta, a jedyne sytuacje, w których pojawia się na krótko, to prezentacja zasobu w kontekście artykułu naukowego lub raportu na jakiejś konferencji. Niemniej jednak nawet w tym przypadku może się zdarzyć, że zasób pozostaje w tle tylko dlatego, że badania nie skupiają się na zasobie per se .
Historia
Mapa LRE powstała pod nazwą „LREC Map” podczas przygotowań do konferencji LREC 2010. Dokładniej, pomysł był dyskutowany w ramach projektu FlaReNet, a we współpracy z ELRA i Instytutem Lingwistyki Komputerowej CNR w Pizie , Mapę wprowadzono na LREC 2010. Organizatorzy LREC poprosili autorów o dostarczenie podstawowych informacji na temat wszystkie zasoby (w szerokim tego słowa znaczeniu, tj. obejmujące narzędzia, standardy i pakiety ewaluacyjne), używane lub tworzone, opisane w swoich artykułach. Wszystkie te deskryptory zostały następnie zebrane w globalną macierz zwaną mapą LREC.
Ta sama metodologia i wymagania autorów zostały następnie zastosowane i rozszerzone na inne konferencje, a mianowicie COLING-2010, EMNLP-2010, RANLP-2011, LREC 2012, LREC 2014 i LREC 2016. Po tym uogólnieniu na inne konferencje, Mapa LREC została przemianowana na LRE Map .
Rozmiar i zawartość
Rozmiar bazy danych rośnie z czasem. Zebrane dane obejmują 4776 wpisów.
Każdy zasób jest opisany według następujących atrybutów:
- Typ zasobu, np. leksykon , narzędzie do adnotacji, tagger/parser .
- Stan produkcji zasobów, np. nowo utworzone zakończone, istniejące-zaktualizowane.
- Dostępność zasobów, np. swobodnie dostępnych, z centrum danych.
- Modalność zasobów, np. mowa , pismo, język migowy .
- Wykorzystanie zasobów, np. rozpoznawanie nazwanych jednostek , identyfikacja języka , tłumaczenie maszynowe .
- Język zasobów, np. angielski, 23 języki Unii Europejskiej, języki urzędowe Indii.
Używa
Mapa LRE jest bardzo ważnym narzędziem do tworzenia wykresów pola NLP. W porównaniu z innymi badanymi w oparciu o subiektywne oceny, mapa LRE składa się z rzeczywistych faktów.
Mapa ma ogromny potencjał do wielu zastosowań, oprócz tego, że jest narzędziem do zbierania informacji:
- Jest to świetne narzędzie do monitorowania ewolucji dziedziny (przydatne dla grantodawców), jeśli jest stosowane w różnych kontekstach i czasach.
- Można to postrzegać jako ogromny wspólny wysiłek, początek jeszcze większej współpracy nie tylko kilku liderów, ale wszystkich badaczy.
- Jest to również środek „edukacyjny” w kierunku szerokiego uznania potrzeby działań metabadawczych przy aktywnym zaangażowaniu wielu osób.
- Odgrywa również zasadniczą rolę we wprowadzaniu nowego pojęcia „cytowania zasobów”, które może stanowić nagrodę i środek naukowego uznania dla naukowców zaangażowanych w tworzenie zasobów.
- Służy do pomocy przy organizacji konferencji terenowych, takich jak LREC .
Macierze pochodne
Dane zostały następnie oczyszczone i posortowane przez Josepha Marianiego (CNRS-LIMSI IMMI) i Gila Francopoulo (CNRS-LIMSI IMMI + Tagmatica) w celu obliczenia różnych macierzy końcowych raportów FLaReNet. Jedna z nich, matryca danych zapisanych na LREC 2010, przedstawia się następująco:
Ciało | Leksykon | Ontologia | Model gramatyki/języka |
Terminologia | |
---|---|---|---|---|---|
bułgarski | 7 | 6 | 1 | 1 | 1 |
Czech | 12 | 7 | 2 | 1 | 1 |
duński | 6 | 2 | 0 | 2 | 0 |
Holenderski | 17 | 8 | 2 | 1 | 2 |
język angielski | 206 | 77 | 18 | 11 | 10 |
estoński | 3 | 1 | 0 | 0 | 1 |
fiński | 3 | 2 | 0 | 1 | 0 |
Francuski | 44 | 24 | 3 | 4 | 5 |
Niemiecki | 43 | 15 | 4 | 2 | 3 |
grecki | 10 | 3 | 2 | 0 | 0 |
język węgierski | 8 | 4 | 0 | 1 | 1 |
Irlandczyk | 1 | 0 | 0 | 0 | 0 |
Włoski | 32 | 16 | 4 | 2 | 0 |
łotewski | 9 | 0 | 0 | 0 | 1 |
litewski | 4 | 0 | 2 | 0 | 1 |
maltański | 1 | 0 | 0 | 1 | 0 |
Polski | 7 | 2 | 1 | 2 | 1 |
portugalski | 19 | 6 | 1 | 1 | 0 |
rumuński | 12 | 7 | 1 | 1 | 0 |
słowacki | 2 | 0 | 0 | 1 | 0 |
słowieński | 5 | 1 | 0 | 0 | 0 |
hiszpański | 29 | 19 | 4 | 5 | 2 |
szwedzki | 19 | 4 | 0 | 1 | 0 |
Inna Europa | 19 | 11 | 3 | 3 | 2 |
Europa regionalna | 18 | 8 | 0 | 1 | 3 |
Wielojęzyczny | 5 | 3 | 1 | 0 | 1 |
Niezależne od języka | 9 | 3 | 16 | 2 | 1 |
Nie dotyczy | 2 | 0 | 2 | 1 | 0 |
Całkowity | 552 | 229 | 67 | 45 | 36 |
Język angielski jest najczęściej studiowanym językiem. Po drugie, przychodzą języki francuski i niemiecki, a następnie włoski i hiszpański.
Przyszły
Mapa LRE została rozszerzona o zasoby językowe i dziennik oceny oraz inne konferencje.