Ocena tłumaczenia maszynowego

Zastosowano różne metody oceny tłumaczenia maszynowego . Ten artykuł koncentruje się na ocenie wyników tłumaczenia maszynowego , a nie na ocenie wydajności lub użyteczności.

Tłumaczenie w obie strony

Typowym sposobem oceny jakości tłumaczenia maszynowego przez laików jest tłumaczenie z języka źródłowego na język docelowy iz powrotem na język źródłowy przy użyciu tego samego silnika. Chociaż intuicyjnie może się to wydawać dobrą metodą oceny, wykazano, że tłumaczenie w obie strony jest „słabym predyktorem jakości”. Powód, dla którego jest to tak słaby predyktor jakości, jest dość intuicyjny. Tłumaczenie w obie strony nie polega na testowaniu jednego systemu, ale dwóch systemów: pary językowej silnika do tłumaczenia na język docelowy oraz pary językowej tłumaczącej z języka docelowego.

Rozważmy następujące przykłady tłumaczenia w obie strony wykonanego z angielskiego na włoski i portugalski z Somers (2005):

Oryginalny tekst Wybierz ten link, aby zobaczyć naszą stronę główną.
Przetłumaczony Wybierz tę opcję, aby chronić swoją stronę główną.
Przetłumaczone z powrotem Wybiera to połączenie, aby obejrzeć naszą stronę główną.
Oryginalny tekst Wet za wet
Przetłumaczony Melharuco para o tat
Przetłumaczone z powrotem Wet za wet

W pierwszym przykładzie, gdzie tekst jest tłumaczony na język włoski , a następnie z powrotem na angielski — tekst w języku angielskim jest znacznie zniekształcony, ale tłumaczenie z języka włoskiego jest przydatne. W drugim przykładzie tekst przetłumaczony z powrotem na angielski jest doskonały, ale na portugalski jest bez znaczenia; program uważał, że „cycek” jest odniesieniem do sikory (ptaka) , które miało oznaczać „tat”, słowo, którego nie rozumiał.

Podczas gdy tłumaczenie w obie strony może być przydatne do generowania „nadwyżki zabawy”, metodologia jest niewystarczająca do poważnego badania jakości tłumaczenia maszynowego.

Ocena człowieka

W tej części omówiono dwa badania ewaluacyjne na dużą skalę, które miały znaczący wpływ na tę dziedzinę — badanie ALPAC 1966 i badanie ARPA.

Komitet Doradczy ds. Automatycznego Przetwarzania Języka (ALPAC)

Jedną z części składowych raportu ALPAC było badanie porównujące różne poziomy tłumaczenia wykonywanego przez człowieka z wynikiem tłumaczenia maszynowego, z udziałem ludzi jako sędziów. Ludzcy sędziowie zostali specjalnie wyszkoleni w tym celu. W badaniu ewaluacyjnym porównano system MT tłumaczący z języka rosyjskiego na angielski z tłumaczami-ludźmi na podstawie dwóch zmiennych.

Badanymi zmiennymi były „zrozumiałość” i „wierność”. Zrozumiałość była miarą „zrozumiałości” zdania i była mierzona w skali od 1 do 9. Wierność była miarą tego, ile informacji zachowało przetłumaczone zdanie w porównaniu z oryginałem, i była mierzona w skali od 0 do 9. Każdy punkt na skali był powiązany z opisem tekstowym. Na przykład, 3 na skali zrozumiałości zostało opisane jako „Ogólnie niezrozumiałe; ma tendencję do czytania jak nonsens, ale przy znacznej ilości refleksji i badań można przynajmniej postawić hipotezę dotyczącą idei zamierzonej w zdaniu”.

Zrozumiałość mierzono bez odniesienia do oryginału, natomiast wierność mierzono pośrednio. Przedstawiono przetłumaczone zdanie, a po jego przeczytaniu i wchłonięciu treści zaprezentowano zdanie oryginalne. Sędziowie zostali poproszeni o ocenę pierwotnego zdania pod względem informacyjności. Tak więc, im więcej informacji w oryginalnym zdaniu, tym niższa jakość tłumaczenia.

Badanie wykazało, że zmienne były silnie skorelowane, gdy ludzki osąd był uśredniany na zdanie. Różnice między oceniającymi były niewielkie, ale naukowcy zalecili, aby użyć co najmniej trzech lub czterech oceniających. Metodologia oceny z łatwością oddzieliła tłumaczenia wykonywane przez ludzi od tłumaczeń maszyn.

W badaniu stwierdzono, że „można dokonać wysoce wiarygodnych ocen jakości tłumaczeń ludzkich i maszynowych”.

Agencja Zaawansowanych Projektów Badawczych (ARPA)

W ramach Human Language Technologies Program Agencja Zaawansowanych Projektów Badawczych (ARPA) stworzyła metodologię oceny systemów tłumaczenia maszynowego i nadal przeprowadza oceny w oparciu o tę metodologię. Program oceny został zainicjowany w 1991 roku i trwa do dziś. Szczegóły programu można znaleźć w White et al. (1994) i biały (1995).

Program oceny obejmował przetestowanie kilku systemów opartych na różnych podejściach teoretycznych; statystyczne, oparte na regułach i wspomagane przez człowieka. W 1992 roku przetestowano szereg metod oceny wydajności tych systemów i wybrano najnowsze odpowiednie metody do uwzględnienia w programach na kolejne lata. Metody były; ocena zrozumienia, ocena panelu jakości i ocena oparta na adekwatności i płynności.

Ocena rozumienia miała na celu bezpośrednie porównanie systemów w oparciu o wyniki testów wielokrotnego wyboru ze zrozumieniem, jak w Church et al. (1993). Wybrane teksty stanowiły zbiór artykułów w języku angielskim na temat wiadomości finansowych. Artykuły te zostały przetłumaczone przez profesjonalnych tłumaczy na szereg par językowych, a następnie przetłumaczone z powrotem na język angielski przy użyciu systemów tłumaczenia maszynowego. Uznano, że nie jest to adekwatne dla samodzielnej metody porównywania systemów i jako takie zostało porzucone ze względu na problemy z modyfikacją znaczenia w procesie tłumaczenia z języka angielskiego.

Ideą panelu oceny jakości było przedłożenie tłumaczeń panelowi ekspertów, którzy byli rodzimymi użytkownikami języka angielskiego, którzy byli profesjonalnymi tłumaczami, i skłonienie ich do ich oceny. Oceny przeprowadzono na podstawie metryki, wzorowanej na standardowej metryce rządu USA, używanej do oceny tłumaczeń wykonywanych przez ludzi. Było to dobre z punktu widzenia tego, że metryka była „motywowana z zewnątrz”, ponieważ nie została opracowana specjalnie do tłumaczenia maszynowego. Jednak organizacja oceny panelu jakościowego była bardzo trudna logistycznie, ponieważ wymagała spotkania wielu ekspertów w jednym miejscu przez tydzień lub dłużej, a ponadto osiągnięcia przez nich konsensusu. Z tej metody również zrezygnowano.

Obok zmodyfikowanej formy oceny rozumienia (przemianowanej na ocenę informacyjności) najpopularniejszą metodą było uzyskiwanie ocen fragmentów dokumentu od jednojęzycznych sędziów. Sędziom przedstawiono segment i poproszono o ocenę go pod kątem dwóch zmiennych, adekwatności i płynności. Adekwatność to ocena tego, ile informacji jest przekazywanych między oryginałem a tłumaczeniem, a płynność to ocena tego, jak dobry jest angielski. Stwierdzono, że technika ta obejmuje odpowiednie części oceny panelu ds. jakości, a jednocześnie jest łatwiejsza do wdrożenia, ponieważ nie wymaga oceny ekspertów.

Systemy pomiarowe oparte na adekwatności i płynności, wraz z informatywnością, są obecnie standardową metodologią programu oceny ARPA.

Automatyczna ocena

W kontekście tego artykułu metryka jest miarą. Metryka, która ocenia wynik tłumaczenia maszynowego, reprezentuje jakość wyniku. Jakość tłumaczenia jest z natury subiektywna, nie ma obiektywnego ani wymiernego „dobra”. Dlatego każda metryka musi przypisywać wyniki jakości, aby korelowały z ludzką oceną jakości. Oznacza to, że metryka powinna oceniać wysoko tłumaczenia, które ludzie oceniają wysoko, i dawać niskie wyniki tym ludziom, którzy dają niskie wyniki. Ludzki osąd jest punktem odniesienia dla oceny automatycznych wskaźników, ponieważ ludzie są końcowymi użytkownikami wszelkich wyników tłumaczenia.

Miarą oceny dla metryk jest korelacja z ludzkim osądem. Zwykle odbywa się to na dwóch poziomach, na poziomie zdania, gdzie wyniki są obliczane na podstawie metryki dla zestawu przetłumaczonych zdań, a następnie korelowane z ludzką oceną tych samych zdań. I na poziomie korpusu, gdzie wyniki ze zdań są agregowane zarówno dla osądów ludzkich, jak i osądów metrycznych, a następnie te łączne wyniki są skorelowane. Dane dotyczące korelacji na poziomie zdań są rzadko podawane, chociaż Banerjee i in. (2005) podają liczby korelacji, które pokazują, że przynajmniej dla ich metryki korelacja na poziomie zdań jest znacznie gorsza niż korelacja na poziomie korpusu.

Chociaż nie jest to szeroko zgłaszane, zauważono, że gatunek lub dziedzina tekstu ma wpływ na korelację uzyskaną przy użyciu metryk. Coughlin (2003) informuje, że porównanie tekstu kandydującego z pojedynczym tłumaczeniem referencyjnym nie wpływa niekorzystnie na korelację metryk podczas pracy z tekstem o ograniczonej domenie.

Nawet jeśli metryka dobrze koreluje z ludzką oceną w jednym badaniu na jednym korpusie, ta udana korelacja może nie zostać przeniesiona do innego korpusu. Dobra wydajność metryki, w różnych typach tekstu lub domenach, jest ważna dla ponownego wykorzystania metryki. Metryka, która działa tylko dla tekstu w określonej domenie, jest użyteczna, ale mniej użyteczna niż metryka, która działa w wielu domenach — ponieważ tworzenie nowej metryki dla każdej nowej oceny lub domeny jest niepożądane.

Innym ważnym czynnikiem wpływającym na przydatność metryki ewaluacyjnej jest dobra korelacja, nawet podczas pracy z małymi ilościami danych, tj. zdaniami kandydującymi i tłumaczeniami referencyjnymi. Turiana i in. (2003) zwracają uwagę, że „każda miara oceny MT jest mniej wiarygodna w przypadku krótszych tłumaczeń” i pokazują, że zwiększenie ilości danych poprawia wiarygodność metryki. Dodają jednak, że „… rzetelność krótszych tekstów, tak krótkich jak jedno zdanie lub nawet jedna fraza, jest wysoce pożądana, ponieważ wiarygodna miara oceny MT może znacznie przyspieszyć eksploracyjną analizę danych”.

Banerjee i in. (2005) zwracają uwagę na pięć cech, które musi posiadać dobra miara automatyczna; korelacja, czułość, spójność, rzetelność i ogólność. Każda dobra metryka musi silnie korelować z ludzką oceną, musi być spójna, dawać podobne wyniki temu samemu systemowi MT na podobnym tekście. Musi być wrażliwy na różnice między systemami MT i niezawodny w tym sensie, że od systemów MT, które osiągają podobne wyniki, należy oczekiwać podobnych wyników. Wreszcie, metryka musi być ogólna, to znaczy powinna działać z różnymi domenami tekstowymi , w szerokim zakresie scenariuszy i zadań MT.

Celem tej podsekcji jest przedstawienie przeglądu stanu wiedzy w zakresie automatycznych metryk do oceny tłumaczenia maszynowego.

NIEBIESKI

BLEU był jednym z pierwszych wskaźników, które wykazały wysoką korelację z ludzką oceną jakości. Metryka jest obecnie jedną z najpopularniejszych w tej dziedzinie. Główną ideą tego wskaźnika jest to, że „im tłumaczenie maszynowe jest bliższe profesjonalnemu tłumaczeniu wykonanemu przez człowieka, tym jest lepsze”. Metryka oblicza wyniki dla poszczególnych segmentów, ogólnie zdań, a następnie uśrednia te wyniki w całym korpusie, aby uzyskać wynik końcowy. Wykazano, że silnie koreluje z ludzkimi ocenami jakości na poziomie korpusu.

BLEU wykorzystuje zmodyfikowaną formę precyzji do porównania tłumaczenia kandydującego z wieloma tłumaczeniami referencyjnymi. Metryka modyfikuje prostą precyzję, ponieważ wiadomo, że systemy tłumaczenia maszynowego generują więcej słów niż pojawia się w tekście referencyjnym. Żadna inna metryka tłumaczenia maszynowego nie przewyższyła jeszcze BLEU pod względem korelacji z ludzką oceną par językowych.

NIST

Metryka NIST jest oparta na metryce BLEU , ale z pewnymi zmianami. Podczas gdy BLEU po prostu oblicza precyzję w n-gramach, dodając równą wagę do każdego z nich, NIST oblicza również, ile informacji zawiera dany n-gram . To znaczy, gdy zostanie znaleziony poprawny n-gram , im rzadszy jest ten n-gram, tym większą ma wagę. Na przykład, jeśli bigram „na” pasuje poprawnie, otrzymuje mniejszą wagę niż prawidłowe dopasowanie „interesujących obliczeń” bigramu, ponieważ jest to mniej prawdopodobne. NIST różni się również od BLEU w obliczaniu kary za zwięzłość, o ile niewielkie różnice w długości tłumaczenia nie wpływają tak bardzo na ogólny wynik.

Współczynnik błędów słowa

Współczynnik błędów słów (WER) jest metryką opartą na odległości Levenshteina , gdzie odległość Levenshteina działa na poziomie znaku, WER działa na poziomie słowa. Pierwotnie był używany do pomiaru wydajności rozpoznawania mowy , ale jest również używany do oceny tłumaczenia maszynowego. Metryka opiera się na obliczeniu liczby słów, które różnią się między fragmentem tekstu przetłumaczonego maszynowo a tłumaczeniem referencyjnym.

Powiązaną metryką jest niezależny od pozycji wskaźnik błędów słów (PER), który pozwala na zmianę kolejności słów i sekwencji słów między przetłumaczonym tekstem a tłumaczeniem referencyjnym.

METEOR

Metryka METEOR ma na celu zaradzenie niektórym niedociągnięciom charakterystycznym dla metryki BLEU. Metryka opiera się na ważonej średniej harmonicznej precyzji i przypominania unigramów. Metryka została zaprojektowana na podstawie badań przeprowadzonych przez Lavie (2004) nad znaczeniem przypominania sobie w metrykach ewaluacyjnych. Ich badania wykazały, że wskaźniki oparte na przypominaniu sobie konsekwentnie osiągały wyższą korelację niż te oparte na samej precyzji, por. BLEU i NIST.

METEOR zawiera również inne funkcje, których nie ma w innych metrykach, takie jak dopasowywanie synonimów, gdzie zamiast dopasowywania tylko dokładnej formy wyrazu, metryka dopasowuje się również do synonimów. Na przykład słowo „good” w tłumaczeniu referencyjnym jako „well” w tłumaczeniu liczy się jako dopasowanie. Metryka zawiera również stemmer, który lematyzuje wyrazy i dopasowuje je do lematyzowanych form. Implementacja metryki jest modułowa, ponieważ algorytmy dopasowujące słowa są implementowane jako moduły, a nowe moduły, które implementują różne strategie dopasowywania, mogą być łatwo dodawane.

LEPOR

Zaproponowano nową metrykę oceny MT LEPOR jako kombinację wielu czynników oceny, w tym istniejących (precyzja, przypominanie) i zmodyfikowanych (kara za długość zdania i kara za kolejność słów na podstawie n-gramów). Eksperymenty zostały przetestowane na ośmiu parach językowych z ACL-WMT2011, w tym angielsko-innym (hiszpańskim, francuskim, niemieckim i czeskim) oraz odwrotnym, i wykazały, że LEPOR dał wyższą korelację na poziomie systemu z ocenami ludzkimi niż kilka istniejących wskaźników, takich jak jak BLEU, Meteor-1.3, TER, AMBER i MP4IBM1. W artykule przedstawiono udoskonaloną wersję metryki LEPOR, hLEPOR. hLEPOR wykorzystuje średnią harmoniczną do łączenia podczynników projektowanej metryki. Ponadto projektują zestaw parametrów, aby dostroić wagi podczynników zgodnie z różnymi parami językowymi. Wyniki wspólnego zadania ACL-WMT13 Metrics pokazują, że hLEPOR daje najwyższy wynik korelacji Pearsona z ludzką oceną pary językowej z angielskiego na rosyjski, oprócz najwyższego średniego wyniku na pięciu parach językowych (angielski na niemiecki, francuski , hiszpański, czeski, rosyjski). W artykule przedstawiono szczegółowe wyniki zadania WMT13 Metrics Task.

Przegląd metodologii oceny ludzkiej i automatycznej

Istnieje kilka prac ankietowych oceniających tłumaczenie maszynowe, w których ludzie wprowadzali więcej szczegółów na temat tego, jakich metod oceny ludzi używali i jak one działają, takich jak zrozumiałość, wierność, płynność, adekwatność, zrozumienie i informatywność itp. W przypadku ocen automatycznych, dokonali również pewnych jasnych klasyfikacji, takich jak metody podobieństwa leksykalnego, zastosowanie cech językowych i poddziedziny tych dwóch aspektów. Na przykład, dla podobieństwa leksykalnego, zawiera odległość edycji, precyzję, przywołanie i kolejność słów; w przypadku cechy językowej dzieli się ją odpowiednio na cechę składniową i semantyczną. Niektóre najnowocześniejsze przeglądy zarówno ręcznej, jak i automatycznej oceny tłumaczeń wprowadziły niedawno opracowane tłumaczeń (TQA), takie jak wykorzystanie danych wywiadowczych Amazon Mechanical Turk , testy istotności statystycznej, ponowne przyjrzenie się tradycyjnym kryteriom z nowo zaprojektowane strategie, a także szacowanie jakości MT (QE) wspólne zadania z corocznych warsztatów na temat MT (WMT) i odpowiadające im modele, które nie opierają się na tłumaczeniach referencyjnych oferowanych przez ludzi.

Zobacz też

Notatki

  • Banerjee, S. and Lavie, A. (2005) „METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments” w Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT i/lub Podsumowanie na 43. dorocznym spotkaniu Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, czerwiec 2005
  • Church, K. i Hovy, E. (1993) „Dobre aplikacje do kiepskiego tłumaczenia maszynowego”. Tłumaczenie maszynowe , 8 s. 239–258
  • Coughlin, D. (2003) „Korelowanie automatycznych i ludzkich ocen jakości tłumaczenia maszynowego” w MT Summit IX, Nowy Orlean, USA , s. 23–27
  • Doddington, G. (2002) „Automatyczna ocena jakości tłumaczenia maszynowego przy użyciu statystyk współwystępowania n-gramów”. Proceedings of the Human Language Technology Conference (HLT), San Diego, Kalifornia, s. 128–132
  • Gaspari, F. (2006) „Zobacz, kto tłumaczy. Podszywanie się pod inne osoby, chińskie szepty i zabawa z tłumaczeniem maszynowym w Internecie” w materiałach z 11. dorocznej konferencji Europejskiego Stowarzyszenia Tłumaczeń Maszynowych
  • Graham, Y. i T. Baldwin. (2014) „Testowanie istotności zwiększonej korelacji z ludzkim osądem”. Obrady EMNLP 2014, Doha, Katar
  • Lavie, A., Sagae, K. i Jayaraman, S. (2004) „Znaczenie wycofania w automatycznych metrykach do oceny MT” w Proceedings of AMTA 2004, Washington DC. wrzesień 2004 r
  • Papineni, K., Roukos, S., Ward, T. i Zhu, WJ (2002). „BLEU: metoda automatycznej oceny tłumaczenia maszynowego” w ACL-2002: 40. doroczne spotkanie Association for Computational Linguistics s. 311–318
  • Somers, H. (2005) „ Tłumaczenie w obie strony: do czego służy?
  • Somers, H., Gaspari, F. i Ana Niño (2006) „Wykrywanie niewłaściwego korzystania z bezpłatnego tłumaczenia maszynowego online przez studentów języków obcych - szczególny przypadek wykrywania plagiatu”. Materiały z 11. dorocznej konferencji Europejskiego Stowarzyszenia Tłumaczy Maszynowych Uniwersytetu w Oslo (Norwegia) s. 41–48
  • ALPAC (1966) „Języki i maszyny: komputery w tłumaczeniu i językoznawstwie”. Raport Komitetu Doradczego ds. Automatycznego Przetwarzania Języka, Wydział Nauk Behawioralnych, Narodowa Akademia Nauk, Krajowa Rada ds. Badań. Washington, DC: National Academy of Sciences, National Research Council, 1966. (Publikacja 1416.)
  • Turian, J., Shen, L. i Melamed, ID (2003) „Ocena tłumaczenia maszynowego i jego ocena”. Proceedings of the MT Summit IX, Nowy Orlean, USA, 2003 s. 386–393
  • White, J., O'Connell, T. i O'Mara, F. (1994) „Metodologie oceny ARPA MT: ewolucja, lekcje i przyszłe podejścia”. Materiały z I Konferencji Stowarzyszenia Tłumaczeń Maszynowych w obu Amerykach. Columbia, MD , s. 193–205
  • White, J. (1995) „Podejścia do oceny Black Box MT”. Obrady MT Summit V
  • Han, ALF, Wong, DF i Chao, LS (2012) „LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors” w Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012): Posters, Bombaj, Indie. Narzędzie open source, str. 441–450
  • Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J. i Zeng, X. (2013a) „Niezależny od języka model oceny tłumaczenia maszynowego ze wzmocnionymi czynnikami” w postępowaniu XIV Szczytu Tłumaczeń Maszynowych w Nicei we Francji. Międzynarodowe Stowarzyszenie Tłumaczeń Maszynowych. Narzędzie open source
  • ACL-WMT. (2013) „ ZADANIE METRYCZNE ACL-WMT13
  • Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y. i Zhou, J. (2013b) „A Description of Tunable Machine Translation Evaluation Systems in WMT13 Metrics Task” w Proceedings of the Eighth Workshop on Statistical Machine Translation, ACL-WMT13, Sofia, Bułgaria. Stowarzyszenie Lingwistyki Komputerowej. Artykuł online , s. 414–421
  • Han, Lifeng (2016) „Zasoby i metody oceny tłumaczenia maszynowego: ankieta” w arXiv: 1605.04515 [cs.CL] , [1] s. 1–14, maj 2016 r.
  • EuroMatrix. 2007. 1.3: Badanie oceny tłumaczenia maszynowego. Dystrybucja publiczna. Projekt finansowany przez Wspólnotę Europejską w ramach Szóstego Programu Ramowego Badań i Rozwoju Technologicznego.
  • Bonnie Dorr , Matt Snover, Nitin Madnani. Część 5: Ocena tłumaczenia maszynowego. Redaktor: Bonnie Dorr. Rozdział książki.
  • Han, Lifeng, Jones, Gareth and Smeaton, Alan (2021) Ocena jakości tłumaczenia: krótka ankieta dotycząca metod ręcznych i automatycznych. [2] W: MoTra21: Workshop on Modeling Translation: Translatology in the Digital Age, @NoDaLiDa 2021. 19 stron. Wydawca: Stowarzyszenie Lingwistyki Komputerowej.

Dalsza lektura

Oprogramowanie do automatycznej oceny