Wyrażenie wielowyrazowe
Wyrażenie wielowyrazowe ( MWE ), zwane także frazesem [ potrzebne źródło ] , to jednostka podobna do leksemu złożona z sekwencji dwóch lub więcej leksemów, która ma właściwości, których nie można przewidzieć na podstawie właściwości poszczególnych leksemów lub ich normalnego trybu połączenie. MWE różnią się od leksemów w tym, że wiele źródeł wymaga, aby te ostatnie miały znaczenie, którego nie można wyprowadzić ze znaczenia oddzielnych składników. Chociaż MWE muszą mieć pewne właściwości, których nie można wyprowadzić z tej samej właściwości komponentów, dana właściwość nie musi mieć znaczenia.
W krótszej definicji MWE można opisać jako „idiosynkratyczne interpretacje, które przekraczają granice słów (lub spacje)”.
Wyrażenie wielowyrazowe może być złożeniem , fragmentem zdania lub zdaniem. Grupa leksemów tworzących MWE może być ciągła lub nieciągła. Nie zawsze jest możliwe oznaczenie MWE częścią mowy .
MWE może być mniej lub bardziej zamrożony.
Przykład nr 1 po angielsku: kopać wiadro , co oznacza raczej śmierć niż uderzenie nogą w wiadro . W tym przykładzie, czyli złożonym endocentrycznie , część mowy można określić jako czasownik . MWE jest zamrożone w tym sensie, że żadna zmiana nie jest możliwa.
Przykład nr 2 w języku angielskim: rzucić <kogoś> lwom . Wzorzec <ktoś> ogranicza użycie. Wyrażenie jest na wpół zamrożone, ponieważ pewien stopień zmienności jest możliwy, ale nie wszystko jest możliwe. Nie można na przykład powiedzieć trzem lwom . Podobnie jak w poprzednim przykładzie, częścią mowy jest czasownik .
Przykład 3 w języku francuskim: la moutarde <ja,te,lui,nous,vous,leur> monte au nez . Ten MWE jest bardziej zamrożony niż inne przykłady. Dodajmy, że dla czasownika dopuszczalna jest odmiana czasowa, ale nie możemy określić, jaka jest część mowy dla całego wyrażenia, ponieważ jest to zdanie.
Tłumaczenie maszynowe (MT) wyrażeń wielowyrazowych
Według Saga i in. (2002) Wyrażenia wielowyrazowe są, oprócz ujednoznacznienia, jednym z dwóch kluczowych problemów przetwarzania języka naturalnego (NLP), a zwłaszcza tłumaczenia maszynowego (MT).
Szacuje się, że liczba MWE w leksykonie mówiącego jest tego samego rzędu wielkości, co liczba pojedynczych słów. Wyspecjalizowane słownictwo dziedzinowe składa się w przeważającej mierze z MWE, stąd odsetek MWE będzie wzrastał w miarę dodawania przez system słownictwa dla nowych domen, ponieważ każda domena dodaje więcej MWE niż słów simpleksowych.
Problemy
Największym problemem przy tłumaczeniu MWE może być problem z idiomatycznością, ponieważ wiele MWE ma sens idiomatyczny, w większym lub mniejszym stopniu.
Na przykład trudno jest przewidzieć dla systemu, że wyrażenie takie jak kick the bucket ma znaczenie całkowicie niezwiązane ze znaczeniem kick , the i bucket , podczas gdy wydaje się być zgodne z gramatyką angielskiego Vps. Idiomów nie można tłumaczyć dosłownie, ponieważ w wielu przypadkach idiom nie istnieje w równoważnej formie w języku docelowym. Należy zwrócić uwagę na (nie)równoważność składniową i/lub semantyczną.
Ponadto nie każdy MWE języka źródłowego ma również MWE w języku docelowym. Na przykład niemieckie MWE ins Auge fassen można przetłumaczyć tylko za pomocą angielskiego jednowyrazowego terminu envisage .
Podchodzi do
Najbardziej obiecującym podejściem do wyzwania, jakim jest tłumaczenie MWE, jest MT oparte na przykładach, ponieważ w tym przypadku każdy MWE może być wymieniony jako przykład wraz z jego odpowiednikiem w tłumaczeniu w języku docelowym.
W przypadku MT opartego na regułach zdefiniowanie zasad tłumaczenia MWE byłoby zbyt trudne ze względu na wielkość różnych rodzajów MWE.
Niemniej jednak system MT oparty na przykładach musi stosować różne zasady tłumaczenia ciągłych i nieciągłych MWE, ponieważ trudniej jest zidentyfikować nieciągły MWE w zdaniu, w którym słowa są wstawiane między różne składniki jednego MWE.
Zobacz też
- ^ Sag, Iwan A.; Baldwin, Tymoteusz; Bond, Franciszek; Copestake, Ann; Migotanie, Dan (2002). „Wyrażenia wielowyrazowe: ból w szyi dla NLP” (PDF) . Lingwistyka komputerowa i inteligentne przetwarzanie tekstu . doi : 10.1007/3-540-45715-1_1 .
- Dimitra Anastasiou: Idiom Treatment Experiments in Machine Translation (2010), Saarbrücken.
- Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake i Dan Flickinger: Wyrażenia wielowyrazowe: ból szyi dla NLP (2002) w: UWAGI Z WYKŁADÓW INFORMATYKI, tom. 2276, s. 1-15.
Linki zewnętrzne
- Multiword Expression Project na Uniwersytecie Stanforda
- Warsztaty z wyrażeń wielowyrazowych
- Wyrażenia wielowyrazowe w ACL Wiki
- Muller, Piotr; Ohneiser, Ingeborg; Olsen, Susan; Rainer, Franz (październik 2011). Tworzenie słów, międzynarodowy podręcznik języków Europy (seria HSK) (PDF) . Berlin: De Gruyter. P. Rozdział 25: Wyrażenia wielosłowe. Zarchiwizowane (PDF) od oryginału w dniu 27.01.2018 r . Źródło 8 sierpnia 2018 r .
- Sag, Iwan A; Baldwin, Tymoteusz; Bond, Franciszek; Copestake, Ann; Migotanie, Dan (2002). „Wyrażenia wielowyrazowe: ból w szyi dla NLP”. Lingwistyka komputerowa i inteligentne przetwarzanie tekstu . Notatki z wykładów z informatyki. Tom. 2276. s. 1–15. doi : 10.1007/3-540-45715-1_1 . hdl : 10356/79581 . ISBN 978-3-540-43219-7 . Źródło 8 sierpnia 2018 r .
- Sailer M, Markantonatou S (2018). Sailer M, Markantonatou S (red.). Wyrażenia wielowyrazowe: spostrzeżenia z perspektywy wielojęzycznej (pdf) . Berlin: Language Science Press. doi : 10.5281/zenodo.1182583 . ISBN 978-3-96110-063-7 .
- Parmentier Y, Waszczuk J (2019). Parmentier Y, Waszczuk J (red.). Reprezentacja i parsowanie wyrażeń wielowyrazowych: Aktualne trendy (pdf) . Berlin: Language Science Press. doi : 10.5281/zenodo.2579017 . ISBN 978-3-96110-145-0 .