LEPOR
LEPOR ( kara za długość, precyzja , n-gram kara za różnicę pozycji i odwołanie ) to automatyczna, niezależna od języka miara oceny tłumaczenia maszynowego z regulowanymi parametrami i wzmocnionymi czynnikami.
Tło
Odkąd IBM zaproponował i zrealizował system BLEU jako automatyczną metrykę do oceny tłumaczenia maszynowego (MT), zaproponowano wiele innych metod jego rewizji lub ulepszenia, takich jak TER, METEOR itp. Istnieją jednak pewne problemy w tradycyjnym automatyczne wskaźniki oceny . Niektóre metryki działają dobrze w niektórych językach, ale słabo w innych językach, co jest zwykle nazywane problemem błędu językowego. Niektóre metryki opierają się na wielu cechach językowych lub informacjach językowych, co utrudnia innym badaczom powtórzenie eksperymentów. LEPOR to automatyczny wskaźnik oceny, który próbuje rozwiązać niektóre z istniejących problemów. LEPOR został zaprojektowany ze zwiększonymi współczynnikami i odpowiednimi dostrajanymi parametrami w celu rozwiązania problemu błędu językowego. Ponadto w ulepszonej wersji LEPOR, tj. hLEPOR, stara się wykorzystywać zoptymalizowane funkcje językowe, które są wyodrębniane z banków drzew . Inną zaawansowaną wersją LEPOR jest metryka nLEPOR, która dodaje n-gramowe cechy do poprzednich czynników. Do tej pory metryka LEPOR została rozwinięta w serię LEPOR.
Metryki LEPOR były badane i analizowane przez wielu badaczy z różnych dziedzin, takich jak tłumaczenie maszynowe, generowanie języka naturalnego , wyszukiwanie i nie tylko. Metryki LEPOR cieszą się coraz większym zainteresowaniem badaczy zajmujących się przetwarzaniem języka naturalnego .
Projekt
LEPOR został zaprojektowany z uwzględnieniem czynników zwiększonej kary za długość, precyzji , kary za kolejność wyrazów w n-gramach i zapamiętywania . Zwiększona kara za długość gwarantuje, że tłumaczenie hipotezy, które jest zwykle tłumaczone przez systemy tłumaczenia maszynowego, jest karane, jeśli jest dłuższe lub krótsze niż tłumaczenie referencyjne. Wynik precyzji odzwierciedla dokładność tłumaczenia hipotezy. Wynik przypomnienia odzwierciedla wierność tłumaczenia hipotezy tłumaczeniu referencyjnemu lub językowi źródłowemu. Współczynnik kary za kolejność słów oparty na n-gramach jest przeznaczony dla różnych rzędów pozycji między tłumaczeniem hipotezy a tłumaczeniem odniesienia. Wielu badaczy udowodniło, że współczynnik kary za kolejność słów jest przydatny, na przykład w pracy Wong i Kit (2008).
W świetle tego, że metryki dopasowywania ciągów powierzchni słowa były krytykowane za brak składni i świadomości semantycznej, dalej rozwijana metryka LEPOR (hLEPOR) bada integrację cech językowych, takich jak część mowy (POS). POS jest wprowadzany jako pewna funkcjonalność zarówno pod względem składniowym, jak i semantycznym, np. jeśli token zdania wyjściowego jest czasownikiem, a oczekuje się, że będzie rzeczownikiem, to będzie kara; ponadto, jeśli POS jest taki sam, ale dokładne słowo nie jest takie samo, np. dobry vs miły, wówczas ten kandydat uzyska określony kredyt. Ogólny wynik hLEPOR jest następnie obliczany jako połączenie wyniku na poziomie słowa i wyniku na poziomie POS z zestawem wag. Wiedza n-gramowa inspirowana modelowaniem językowym jest również szeroko badana w projekcie nLEPOR. Oprócz n-gramowej wiedzy do obliczania kary za różnicę pozycji w n-gramach, n-gram jest również stosowany do n-gramowej precyzji i n-gramowego przywołania w nLEPOR, a parametr n jest regulowanym współczynnikiem. Oprócz znajomości POS w hLEPOR, w nowym wariancie HPPR zawarta jest struktura fraz z parsowania informacji. W modelowaniu oceny HPPR podczas dopasowywania tekstu kandydującego do tekstu referencyjnego uwzględnia się zestaw struktur fraz, taki jak fraza rzeczownikowa, fraza czasownikowa, fraza przyimkowa, fraza przysłówkowa.
Implementacja oprogramowania
Metryki LEPOR zostały pierwotnie zaimplementowane w języku programowania Perl, a ostatnio wersja Python jest dostępna dla innych badaczy i inżynierów, zgodnie z komunikatem prasowym firmy Logrus Global Language Service.
Wydajność
Seria LEPOR wykazała się dobrymi występami na dorocznych międzynarodowych warsztatach statystycznego tłumaczenia maszynowego ACL ( ACL -WMT ). ACL-WMT jest w posiadaniu specjalnej grupy zajmującej się tłumaczeniem maszynowym (SIGMT) w międzynarodowym stowarzyszeniu lingwistyki komputerowej (ACL). W ACL-WMT 2013 dostępne są dwie ścieżki tłumaczenia i oceny: z angielskiego na inny i z innego na angielski. „Inne” języki to hiszpański , francuski , niemiecki , czeski i rosyjski . W kierunku angielsko-innym, metryka nLEPOR osiąga najwyższy wynik korelacji na poziomie systemowym z ocenami ludzkimi przy użyciu współczynnika korelacji Pearsona, drugi najwyższy wynik korelacji na poziomie systemowym z ocenami ludzkimi przy użyciu współczynnika korelacji rang Spearmana . W kierunku innym do angielskiego nLEPOR wykonuje umiarkowane i METEOR daje najwyższy wynik korelacji z ludzkimi osądami, co wynika z faktu, że nLEPOR wykorzystuje tylko zwięzłą cechę językową, informacje części mowy, z wyjątkiem oficjalnie oferowanych danych treningowych; jednak METEOR wykorzystał wiele innych zasobów zewnętrznych, takich jak synonimów , parafrazy i stemmingi itp.
Jedna rozszerzona praca i wprowadzenie na temat występów LEPOR z różnymi warunkami, w tym czystą formą wyrazu, funkcjami POS , funkcjami znaczników fraz, jest opisana w pracy magisterskiej z University of Macau .
Istnieje dogłębna analiza statystyczna dotycząca wydajności hLEPOR i nLEPOR w WMT13, która pokazuje, że jest to jeden z najlepszych wskaźników „zarówno w ocenie poszczególnych par językowych dla hiszpańskiego na angielski, jak i zagregowanego zestawu 9 par językowych”, zob. artykuł (Dokładna ocena wskaźników tłumaczenia maszynowego na poziomie segmentu) " https://www.aclweb.org/anthology/N15-1124 " Graham i in. NAACL 2015 ( https://github.com/ygraham/segment-mteval )
Aplikacje
Automatyczne serie metryczne LEPOR były stosowane i wykorzystywane przez wielu badaczy z różnych dziedzin w przetwarzaniu języka naturalnego . Na przykład w standardowym MT i Neural MT. Również poza społecznością MT zastosowano na przykład LEPOR w ocenie wyszukiwania; wspomniał o zastosowaniu LEPOR do oceny generowania kodu (języka programowania); zbadali automatyczną ocenę generowania języka naturalnego za pomocą metryk, w tym LEPOR, i argumentowali, że automatyczne metryki mogą pomóc w ocenach na poziomie systemu; LEPOR jest również stosowany do oceny napisów do obrazów.
Zobacz też
- Ocena tłumaczenia maszynowego
- Tłumaczenie maszynowe
- Studia tłumaczeniowe
- Technologia językowa
- Przetwarzanie języka naturalnego
- Lingwistyka komputerowa
- Pokolenie języka naturalnego
- Rozumienie języka naturalnego
- Sztuczna inteligencja
Notatki
- Papineni, K., Roukos, S., Ward, T. i Zhu, WJ (2002). „BLEU: metoda automatycznej oceny tłumaczenia maszynowego” w ACL-2002: 40. doroczne spotkanie Association for Computational Linguistics s. 311–318
- Han, ALF, Wong, DF i Chao, LS (2012) „LEPOR: solidna metryka oceny tłumaczenia maszynowego z czynnikami rozszerzonymi” w Proceedings of the 24th International Conference on Computational Linguistics ( COLING 2012): Plakaty, s. 441– 450. Mumbai w Indiach. Papier online Narzędzie typu open source
- Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J. i Zeng, X. (2013a) „Niezależny od języka model oceny tłumaczenia maszynowego ze wzmocnionymi czynnikami” w postępowaniu XIV szczytu Machine Translation Summit (MT SUMMIT 2013), s. 215-222. Ładna, Francja. Wydawca: Międzynarodowe Stowarzyszenie Tłumaczeń Maszynowych. Papier online Narzędzie typu open source
- Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y. i Zhou, J. (2013b) „A Description of Tunable Machine Translation Evaluation Systems in WMT13 Metrics Task” w Proceedings of the Eighth Workshop on Statistical Machine Translation, ACL-WMT13, Sofia, Bułgaria. Stowarzyszenie Lingwistyki Komputerowej. Artykuł online , s. 414–421
- Han, Aaron LF; Wong, Derek F.; Chao, Lidia S.; On, Liangye; Lu, Yi (2014). „Model oceny jakości bez nadzoru dla tłumaczeń z języka angielskiego na niemiecki i jego zastosowanie w szeroko zakrojonej ocenie nadzorowanej” . Światowy Dziennik Naukowy . 2014 : 1–12. doi : 10.1155/2014/760301 . PMC 4032676 . PMID 24892086 .
- ACL-WMT. (2013) „ ACL-WMT13 ZADANIE METRYCZNE ”
- Wong, B.TM i Kit, C. (2008). „Wybór słowa i pozycja słowa do automatycznej oceny MT” w Workshop: MetricsMATR of the Association for Machine Translation in the Americas (AMTA) , krótki artykuł, Waikiki, USA.
- Banerjee, S. and Lavie, A. (2005) „METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments” w Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT i/lub Podsumowanie na 43. dorocznym spotkaniu Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, czerwiec 2005
- Han, Lifeng. (2014) „LEPOR: Metryka oceny rozszerzonego tłumaczenia maszynowego”. Praca magisterska z inżynierii oprogramowania. Uniwersytet w Makau, Makao. [1] PPT
- Yvette Graham, Timothy Baldwin i Nitika Mathur. (2015) Dokładna ocena wskaźników tłumaczenia maszynowego na poziomie segmentu. W NAACL HLT 2015, The 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Denver, Colorado, USA, 31 maja - 5 czerwca 2015, strony 1183–1191.
- Han, Lifeng (2016). „Zasoby i metody oceny tłumaczenia maszynowego: ankieta” . arXiv : 1605.04515 [ cs.CL ].
- Jekaterina Novikova, Ondˇrej Dušek, Amanda Cercas Curry i Verena Rieser. (2017) Dlaczego potrzebujemy nowych wskaźników oceny dla NLG. W Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, strony 2241–2252, Kopenhaga, Dania. Stowarzyszenie Lingwistyki Komputerowej.
- Liu, Zeyang; Zhou, Ke; Wilson, Max L. (2021). „Metaocena wskaźników oceny wyszukiwania konwersacyjnego” . Transakcje ACM w systemach informatycznych . 39 (4): 1–42. arXiv : 2104.13453 . doi : 10.1145/3445029 . S2CID 233423567 .
- Liguori, Pietro; Al-Hossami, Erfan; Cotroneo, Domenico; Natella, Roberto; Cukić, Bojan; Szejk, Samira (2021). „Shellcode_IA32: zbiór danych do automatycznego generowania kodu powłoki” . Materiały z 1. Warsztatu Przetwarzania Języka Naturalnego w Programowaniu (NLP4Prog 2021) . s. 58–64. arXiv : 2104.13100 . doi : 10.18653/v1/2021.nlp4prog-1.7 . S2CID 233407761 .
- Celikyilmaz, Asli; Clark, Elżbieta; Gao, Jianfeng (2020). „Ocena generowania tekstu: ankieta”. arXiv : 2006.14799 [ cs.CL ].
- D Qiu, B Rothrock, T Islam, AK Didier, VZ Sun… (2020) SCOTI: Science Captioning of Terrain Images do ustalania priorytetów danych i lokalnego wyszukiwania obrazów. Planetarne i Kosmiczne. Elsevier
- Marzouk, Shaimaa; Hansen-Schirra, Silvia (2019). „Ocena wpływu języka kontrolowanego na neuronowe tłumaczenie maszynowe w porównaniu z innymi architekturami MT”. Tłumaczenie maszynowe . 33 (1–2): 179–203. doi : 10.1007/s10590-019-09233-w . S2CID 171094946 .
- Han, Aaron Li-Feng; Wong, Derek F.; Chao, Lidia S.; On, Liangye; Li, Szuo; Zhu, Ling (2013). „Mapowanie zestawu tagów fraz dla francuskich i angielskich banków drzew oraz jego zastosowanie w ocenie tłumaczenia maszynowego” . Przetwarzanie języka i wiedza w sieci . Notatki z wykładów z informatyki. Tom. 8105. s. 119–131. doi : 10.1007/978-3-642-40722-2_13 . ISBN 978-3-642-40721-5 .