Słownik morfologiczny
W dziedzinie lingwistyki komputerowej i lingwistyki stosowanej słownik morfologiczny jest zasobem językowym, który zawiera odpowiedniki między formą powierzchniową a formami leksykalnymi słów. Formy powierzchniowe słów to formy występujące w tekście języka naturalnego. Odpowiednią formą leksykalną formy powierzchniowej jest lemat, po którym następują informacje gramatyczne (na przykład część mowy , rodzaj i liczba ). Po angielsku dawaj , dawaj , dawaj , dał i dał to powierzchniowe formy czasownika dać . Formą leksykalną byłoby „dać”, czasownik. Istnieją dwa rodzaje słowników morfologicznych: słowniki dopasowane do morfemów i słowniki pełnoformatowe (niewyrównane).
Godne uwagi przykłady i formalizmy
Morfologie uniwersalne
Zainspirowany sukcesem Universal Dependencies dla międzyjęzykowej adnotacji zależności syntaktycznych, pojawiły się podobne wysiłki dla morfologii, np. UniMorph i UDer. Obejmują one proste formaty tabelaryczne ( oddzielone tabulatorami ) z jedną formą w rzędzie i jej pochodną (UDer), odpowiednio, informacjami o fleksji (UniMorph):
aalen aalend V.PTCP;PRS
aalen aalen V;IND;PRS;1;PL
aalen aalen V;IND;PRS;3;PL
aalen aalen V;NFIN
(UniMorph, niemiecki. Kolumny to LEMAT, FORMA, FUNKCJE)
W UDer dodatkowe informacje (część mowy) są kodowane w kolumnach:
abändern_V Abänderung_Nf dVN07>
Abarbeiten_Nn abarbeiten_V dNV09>
abartig_A Abartigkeit_Nf dAN03>
Abart_Nf abartig_A dNA05>
abbaggern_V Abbaggern_Nn dVN09>
(UDer, niemiecki DErivBase 0.5. Kolumny to BASE, DERIVED, RULE)
W chwili pisania tego tekstu (2021) wszystkie z nich są niewyrównanymi słownikami morfologicznymi (patrz poniżej). Ich uproszczony format szczególnie dobrze nadaje się do stosowania technik uczenia maszynowego, a w szczególności UniMorph był przedmiotem wielu wspólnych zadań.
Przetworniki skończone
Przetworniki stanu skończonego (FST) są popularną techniką obliczeniowego przetwarzania morfologii, zwłaszcza morfologii fleksyjnej. W parserach morfologicznych opartych na regułach zarówno leksykon, jak i reguły są zwykle sformalizowane jako automaty skończone, a następnie łączone. Wymagają zatem słowników morfologicznych z określonymi instrukcjami przetwarzania (które często mają interpretację językową, ale technicznie są traktowane jak dowolne symbole łańcuchowe). Popularne pakiety FST, takie jak SFST (dostępne z pakietu fst w Debianie i Ubuntu) pozwalają definiować specyficzne dla aplikacji formaty plików dla leksyki morfologicznej, które łączą różne informacje morfologiczne z każdym pojedynczym morfemem. Są to więc wyrównane słowniki morfologiczne, ale bardzo bogate (a także specyficzne) pod względem struktury.
Przykładowe dane z SMOR (gramatyka niemiecka SFST):
<Base_Stems>Akwizgran<NN><base><nativ><Name-Neut_s>
<Base_Stems>Aal<NN><base><nativ><NMasc_es_e>
<Base_Stems>Aarau<NN><base><nativ><Name-Neut_s>
<Suff_Stems><suffderiv><gebunden><kompos><NN>nom<>:e<>:n<NN><SUFF><kompos><frei>
<Suff_Stems><suffderiv><gebunden><kompos><NN>nie m<NN><SUFF><base><frei><NMasc_en_en>
<Suff_Stems><suffderiv><gebunden><kompos><NN>nie m<NN><SUFF><deriv><frei>
Edytory Interlinear Glossed Text
Tekst z połyskiem międzyliniowym (IGT) jest popularnym formalizmem w dokumentacji językowej, typologii językowej oraz innych gałęziach językoznawstwa i filologii. Chociaż IGT można utworzyć bez żadnego specjalistycznego oprogramowania (ale tylko za pomocą konwencjonalnego edytora), takie specjalistyczne oprogramowanie zostało opracowane, z godnymi uwagi przykładami, takimi jak Toolbox, FieldWorks Language Explorer (FLEx) lub alternatywami typu open source, takimi jak Xigt. Toolbox i FLEx obsługują półautomatyczne adnotacje za pomocą wewnętrznego słownika morfologicznego. Ilekroć napotkany zostanie segment morfologiczny, dla którego można znaleźć adnotację w słowniku, adnotacje te są stosowane. Za każdym razem, gdy segment morfologiczny jest opatrzony nową adnotacją, adnotacja jest zapisywana w słowniku. FLEx i Toolbox zapewniają różne funkcje edytora do dodawania adnotacji do tekstu i edytowania słowników, dzięki czemu można dodawać dodatkowe informacje poza tymi, które można znaleźć w adnotacjach, ale zasadniczo ich formaty zapewniają wyrównane słowniki morfologiczne.
FLEx i Xigt są oparte na formatach XML, Toolbox używa formatu zwykłego tekstu z charakterystycznymi „znacznikami”. FLEx i Toolbox nie są ze sobą bezpośrednio kompatybilne, ale istnieje półautomatyczny konwerter Toolbox na FLEx. Xigt jest dostarczany z importerami FLEx i Toolbox, ale jest rzadziej używany niż FLEx lub Toolbox. Ich formaty FLEx i Toolbox nie są przeznaczone do spożycia przez ludzi ani nie są dobrze obsługiwane przez żadne oprogramowanie przetwarzające inne niż ich natywne narzędzia.
OntoLex-Morph: standard społecznościowy dla słowników morfologicznych
OntoLex to wspólnotowy standard słowników do odczytu maszynowego w Internecie. W 2019 roku zaproponowano moduł OntoLex-Morph w celu ułatwienia modelowania danych morfologii w leksykografii, a także dostarczenia modelu danych dla słowników morfologicznych do przetwarzania języka naturalnego. OntoLex-Morph obsługuje zarówno wyrównane, jak i niewyrównane słowniki morfologiczne. Konkretnym celem jest ustanowienie interoperacyjności między słownikami IGT, leksykonami FST i słownikami morfologicznymi używanymi do uczenia maszynowego.
Rodzaje i struktura słowników morfologicznych
Wyrównane słowniki morfologiczne
W wyrównanym słowniku morfologicznym zgodność między formą powierzchniową a formą leksykalną słowa jest wyrównana na poziomie znaku, na przykład:
- (h,h) (o,o) (u,u) (s,s) (e,e) (s,⟨n⟩), (θ,⟨pl⟩)
Gdzie θ jest pustym symbolem, a ⟨n⟩ oznacza „rzeczownik”, a ⟨pl⟩ oznacza „liczbę mnogą”.
W przykładzie lewa strona to forma powierzchniowa (wejście), a prawa strona to forma leksykalna (wyjście). Ta kolejność jest używana w analizie morfologicznej , w której forma leksykalna jest generowana z formy powierzchniowej. W pokoleniu morfologicznym kolejność ta byłaby odwrócona.
jest alfabetem symboli wejściowych, a jest alfabetem symboli , wyrównany słownik morfologiczny jest podzbiorem , gdzie:
jest alfabetem wszystkich możliwych dopasowań, w tym pustym symbolem. Oznacza to, że wyrównany słownik morfologiczny jest zbiorem ciągów w .
Niewyrównane słowniki morfologiczne (pełne słowniki)
Niewyrównany słownik morfologiczny (lub słownik w pełnej formie) to po prostu zbiór par łańcuchów wejściowych i wyjściowych. Niewyrównany słownik morfologiczny reprezentowałby poprzedni przykład jako:
- (domy, dom⟨n⟩⟨pl⟩)
Możliwe jest przekonwertowanie słownika niewyrównanego na słownik wyrównany. Oprócz trywialnych dopasowań w lewo lub w prawo, możliwe są wyrównania motywowane językowo, które dopasowują znaki do odpowiadających im morfemów.
Niejasności leksykalne
Często istnieje więcej niż jedna forma leksykalna związana z formą powierzchniową słowa. Na przykład „dom” może być rzeczownikiem w liczbie pojedynczej /haʊs/ lub czasownikiem w czasie teraźniejszym /haʊz/ . W rezultacie konieczne jest posiadanie funkcji, która wiąże ciągi wejściowe z odpowiadającymi im ciągami wyjściowymi.
Jeśli zdefiniujemy zbiór słów wejściowych taki, że słów wejściowych tak, że , funkcja zgodności byłaby zdefiniowana jako zdefiniowana jako .