Wyrażenie wielowyrazowe

Wyrażenie wielowyrazowe ( MWE ), zwane także frazesem [ potrzebne źródło ] , to jednostka podobna do leksemu złożona z sekwencji dwóch lub więcej leksemów, która ma właściwości, których nie można przewidzieć na podstawie właściwości poszczególnych leksemów lub ich normalnego trybu połączenie. MWE różnią się od leksemów w tym, że wiele źródeł wymaga, aby te ostatnie miały znaczenie, którego nie można wyprowadzić ze znaczenia oddzielnych składników. Chociaż MWE muszą mieć pewne właściwości, których nie można wyprowadzić z tej samej właściwości komponentów, dana właściwość nie musi mieć znaczenia.

W krótszej definicji MWE można opisać jako „idiosynkratyczne interpretacje, które przekraczają granice słów (lub spacje)”.

Wyrażenie wielowyrazowe może być złożeniem , fragmentem zdania lub zdaniem. Grupa leksemów tworzących MWE może być ciągła lub nieciągła. Nie zawsze jest możliwe oznaczenie MWE częścią mowy .

MWE może być mniej lub bardziej zamrożony.

Przykład nr 1 po angielsku: kopać wiadro , co oznacza raczej śmierć niż uderzenie nogą w wiadro . W tym przykładzie, czyli złożonym endocentrycznie , część mowy można określić jako czasownik . MWE jest zamrożone w tym sensie, że żadna zmiana nie jest możliwa.

Przykład nr 2 w języku angielskim: rzucić <kogoś> lwom . Wzorzec <ktoś> ogranicza użycie. Wyrażenie jest na wpół zamrożone, ponieważ pewien stopień zmienności jest możliwy, ale nie wszystko jest możliwe. Nie można na przykład powiedzieć trzem lwom . Podobnie jak w poprzednim przykładzie, częścią mowy jest czasownik .

Przykład 3 w języku francuskim: la moutarde <ja,te,lui,nous,vous,leur> monte au nez . Ten MWE jest bardziej zamrożony niż inne przykłady. Dodajmy, że dla czasownika dopuszczalna jest odmiana czasowa, ale nie możemy określić, jaka jest część mowy dla całego wyrażenia, ponieważ jest to zdanie.

Tłumaczenie maszynowe (MT) wyrażeń wielowyrazowych

Według Saga i in. (2002) Wyrażenia wielowyrazowe są, oprócz ujednoznacznienia, jednym z dwóch kluczowych problemów przetwarzania języka naturalnego (NLP), a zwłaszcza tłumaczenia maszynowego (MT).

Szacuje się, że liczba MWE w leksykonie mówiącego jest tego samego rzędu wielkości, co liczba pojedynczych słów. Wyspecjalizowane słownictwo dziedzinowe składa się w przeważającej mierze z MWE, stąd odsetek MWE będzie wzrastał w miarę dodawania przez system słownictwa dla nowych domen, ponieważ każda domena dodaje więcej MWE niż słów simpleksowych.

Problemy

Największym problemem przy tłumaczeniu MWE może być problem z idiomatycznością, ponieważ wiele MWE ma sens idiomatyczny, w większym lub mniejszym stopniu.

Na przykład trudno jest przewidzieć dla systemu, że wyrażenie takie jak kick the bucket ma znaczenie całkowicie niezwiązane ze znaczeniem kick , the i bucket , podczas gdy wydaje się być zgodne z gramatyką angielskiego Vps. Idiomów nie można tłumaczyć dosłownie, ponieważ w wielu przypadkach idiom nie istnieje w równoważnej formie w języku docelowym. Należy zwrócić uwagę na (nie)równoważność składniową i/lub semantyczną.

Ponadto nie każdy MWE języka źródłowego ma również MWE w języku docelowym. Na przykład niemieckie MWE ins Auge fassen można przetłumaczyć tylko za pomocą angielskiego jednowyrazowego terminu envisage .

Podchodzi do

Najbardziej obiecującym podejściem do wyzwania, jakim jest tłumaczenie MWE, jest MT oparte na przykładach, ponieważ w tym przypadku każdy MWE może być wymieniony jako przykład wraz z jego odpowiednikiem w tłumaczeniu w języku docelowym.

W przypadku MT opartego na regułach zdefiniowanie zasad tłumaczenia MWE byłoby zbyt trudne ze względu na wielkość różnych rodzajów MWE.

Niemniej jednak system MT oparty na przykładach musi stosować różne zasady tłumaczenia ciągłych i nieciągłych MWE, ponieważ trudniej jest zidentyfikować nieciągły MWE w zdaniu, w którym słowa są wstawiane między różne składniki jednego MWE.

Zobacz też

  1. ^ Sag, Iwan A.; Baldwin, Tymoteusz; Bond, Franciszek; Copestake, Ann; Migotanie, Dan (2002). „Wyrażenia wielowyrazowe: ból w szyi dla NLP” (PDF) . Lingwistyka komputerowa i inteligentne przetwarzanie tekstu . doi : 10.1007/3-540-45715-1_1 .

Linki zewnętrzne