OntoLex

OntoLex to skrócona nazwa słownika zasobów leksykalnych w sieci danych (OntoLex-Lemon) oraz skrócona nazwa grupy społeczności W3C, która je stworzyła (W3C Ontology-Lexica Community Group).

Słownictwo OntoLex-Lemon

Słownik OntoLex-Lemon reprezentuje słownik służący do publikowania danych leksykalnych w postaci wykresu wiedzy , w formacie RDF i/lub jako Linguistic Linked Open Data . Od momentu opublikowania jako raport społeczności W3C w 2016 r. służy on jako „de facto standard reprezentacji ontologii-leksiki w sieci”. OntoLex-Lemon to rewizja słownictwa Lemon pierwotnie zaproponowanego przez McCrae i in. (2011).

Ryc. 1. Model rdzenia OntoLex-Lemon

Podstawowe elementy OntoLex-Lemon, pokazane na rys. 1, to:

wpis leksykalny: jednostka analizy leksykonu, grupuje jedną lub więcej form i jeden lub więcej znaczeń, wzgl. pojęcia. Potrafi podać dodatkowe informacje morfosyntaktyczne, np. jedną część mowy. Zauważ, że każdy wpis leksykalny może mieć co najwyżej jedną część mowy, aby przedstawić grupy wpisów leksykalnych o identycznych formach, ale różnych częściach mowy, zobacz moduł leksykograficzny.
forma leksykalna: forma powierzchniowa określonego hasła leksykalnego, np. jego pisemna reprezentacja
sens leksykalny: sens słowny określonego wpisu leksykalnego. Zauważ, że znaczenia OntoLex-Lemon są zleksykalizowane , tzn. należą do dokładnie jednego wpisu leksykalnego. W przypadku elementów znaczeniowych, które można wyrazić różnymi leksemami, użyj pojęcia leksykalnego.
pojęcie leksykalne: elementy znaczeniowe z różnymi leksykalizacjami. Typowym przykładem są synsety WordNet, w których wiele synonimów jest zgrupowanych razem w jednym zestawie.

Oprócz modułu podstawowego (przestrzeń nazw http://www.w3.org/ns/lemon/ontolex# ), inne moduły określają wyznaczone słownictwo do reprezentowania metadanych leksykonu (przestrzeń nazw http://www.w3.org/ns/lemon/ lime# ), relacje leksykalno-semantyczne (np. tłumaczenie i wariacje, przestrzeń nazw http://www.w3.org/ns/lemon/vartrans# ), wyrażenia wielowyrazowe (dekompozycja, przestrzeń nazw http://www.w3. org/ns/lemon/decomp# ) i ramki składniowe (przestrzeń nazw http://www.w3.org/ns/lemon/synsem# ).

Struktury danych OntoLex-Lemon są porównywalne ze strukturami innych formatów słowników (patrz powiązane słownictwo poniżej). Innowacyjnym elementem OntoLex-Lemon jest to, że zapewnia taki model danych, jak słownictwo RDF, ponieważ umożliwia to nowatorskie przypadki użycia, które są oparte na technologiach internetowych, a nie na samodzielnych słownikach (np. wnioskowanie o tłumaczeniu, patrz zastosowania poniżej). W dającej się przewidzieć przyszłości OntoLex-Lemon również pozostanie wyjątkowy w tej roli, ponieważ społeczność (Linguistic) Linked Open Data zdecydowanie zachęca do ponownego wykorzystywania istniejących słowników, a od grudnia 2019 r. OntoLex-Lemon jest jedynym ustalonym (tj. opublikowanym przez W3C lub inną inicjatywę standaryzacyjną) słownikiem do tego celu. Znajduje to również odzwierciedlenie w niedawnych rozszerzeniach oryginalnej specyfikacji OntoLex-Lemon, w których opracowano nowe moduły w celu rozszerzenia wykorzystania OntoLex-Lemon na nowe obszary zastosowań:

OntoLex-Lemon Lexicography Module, opublikowany jako raport grupy społeczności W3C, rozszerza OntoLex-Lemon w odniesieniu do wymagań leksykografii cyfrowej .
Moduł morfologii OntoLex-Lemon, będący w fazie rozwoju od grudnia 2019 r., Ma na celu ułatwienie wielojęzyczności poprzez sformalizowanie słowników morfologicznych w OntoLex-Lemon, zwłaszcza dla języków bogatych w morfologię
Moduł OntoLex-Lemon dla informacji o częstotliwości, poświadczaniu i korpusie, będący w fazie rozwoju od grudnia 2019 r., Ma na celu ułatwienie korzystania z OntoLex-Lemon w leksykografii obliczeniowej i przetwarzaniu języka naturalnego
Aktualizacje LexInfo: LexInfo zapewnia kategorie danych dla danych OntoLex-Lemon. Obecna wersja to Lexinfo 3.0, starsze wersje (przed 2019 rokiem) nadal opierały się na starszym słownictwie Monnet-Lemon.

Aplikacje

OntoLex-Lemon jest szeroko stosowany do zasobów leksykalnych w kontekście Linguistic Linked Open Data . Wybrane aplikacje to m.in

OASIS Lexicographic Infrastructure Data Model and API (LEXIDMA), platforma dla interoperacyjnych prac leksykograficznych w skali międzynarodowej
Europejska publiczna wielojęzyczna infrastruktura wiedzy
LexO, współpracujący edytor internetowy używany do tworzenia (wielojęzycznych) zasobów leksykalnych i terminologicznych oraz zarządzania nimi jako połączonych zasobów danych
VocBench , internetowa, wielojęzyczna, współpracująca platforma programistyczna do zarządzania ontologiami, tezaurusami, leksykonami i danymi RDF
Interfejs API Lexicala firmy K Dictionaries, który zapewnia dostęp do wielojęzycznych danych leksykalnych w 50 językach i 150 parach językowych.
DiTMAO, edytor leksykograficzny opracowany do tworzenia słownika terminologii medyczno-botanicznej Old Occitan
seria wspólnych zadań dotyczących wnioskowania o tłumaczeniu w różnych słownikach (TIAD-2017, TIAD-2019, TIAD-2020)
DBnary, wydanie RDF 16 wydań językowych Wikisłownika
PanLex, zakrojona na szeroką skalę sieć leksykalna obejmująca około 2500 słowników i ponad 500 języków
Princeton WordNet 3.1 , zasób leksykalny o strukturze hierarchicznej i relacyjnej na dużą skalę dla języka angielskiego
Global WordNet Association, wysiłek społeczności mający na celu tworzenie, utrzymywanie i łączenie wielojęzycznych sieci WordNet
BabelNet , wielojęzyczna sieć leksykalna na dużą skalę
LiLa, baza wiedzy o zasobach językowych dla łaciny oparta na dużym leksykonie składającym się ze zbioru formularzy cytowań

Rozwój OntoLex jest regularnie poruszany w wydarzeniach naukowych poświęconych ontologiom, połączonym danym lub leksykografii. Od 2017 roku co dwa lata prowadzony jest dedykowany cykl warsztatów z modułu OntoLex.

Powiązane słowniki

Pokrewne słowniki, które koncentrują się na standaryzacji i publikowaniu zasobów leksykalnych, obejmują DICT (format tekstowy), XML Dictionary eXchange Format , TEI-Dict (XML) i Lexical Markup Framework (abstrakcyjny model zwykle serializowany w XML; słownictwo Lemon pierwotnie wyewoluowało z serializacja RDF LMF). OntoLex-Lemon różni się od tych wcześniejszych modeli tym, że jest natywnym słownikiem Linked Open Data który nie (tylko) formalizuje struktury i semantyki słowników do odczytu maszynowego, ale ma na celu ułatwienie integracji informacji między nimi.

Linki zewnętrzne