Mojżesz dla zwykłych śmiertelników

Moses for Mere Mortals ( MMM ) to darmowe oprogramowanie typu open source składające się z zestawu skryptów zaprojektowanych w celu umożliwienia automatyzacji procesów instalacji i obsługi Moses Open Source Translation System , statystycznego systemu tłumaczenia maszynowego .

MMM buduje prototyp łańcucha tłumaczeń z Moses + IRSTLM + RandLM + MGIZA.

Pierwsza wersja Moses for Mere Mortals została opublikowana w listopadzie 2009 roku i została zaktualizowana i przetestowana na dystrybucjach Linux - Ubuntu. MMM jest dostępny w GitHub Project Hosting .

Przegląd

Jego głównymi celami są:

  • pomóc zbudować prototyp łańcucha tłumaczeń dla świata rzeczywistego;
  • kierować pierwszymi krokami użytkowników, którzy dopiero zaczynają korzystać z Mojżesza;
  • umożliwiają prostą i szybką ocenę Mojżesza;
  • umożliwiać użytkownikowi wykonywanie własnych tłumaczeń bez konieczności ufania stronom trzecim (tłumaczącym);
  • zintegrować tłumaczenie maszynowe i pamięci tłumaczeniowe.

Mimo że główny nacisk koncentruje się na Linuksie , dwa dodatki do systemu Windows pomagają w przejściu z systemu Windows do systemu Linux, a następnie z powrotem z systemu Linux.

Główne cechy

Przegląd

Mojżesz pozwala na trenowanie korpusów, w których każde słowo jest prezentowane razem z, na przykład, odpowiednim lematem i/lub częścią znacznika mowy („trening faktorowy”). Skrypty nie obejmują tego typu szkoleń.

MMM składa się z siedmiu skryptów dla systemu Linux, dokładnie przetestowanych z Ubuntu (12.04 i 14.04, 64-bit):

  • Zainstaluj : Aby zainstalować w Ubuntu pakiety, od których zależą zarówno Moses, jak i Moses for Mere Mortals.
  • Utwórz : Aby skompilować Mojżesza i inne wymagane pakiety za pomocą jednego polecenia.
  • Make-test-files : Aby wyodrębnić z oryginalnego korpusu korpus do treningu, pliki do strojenia i pliki do testowania wyników treningu.
  • Trenuj : Aby wyszkolić potrzebne pary językowe, ponieważ Mojżesz jest niezależny od języka i może pracować z dowolnym językiem/alfabetem.
  • Tłumacz : Do tworzenia tłumaczeń maszynowych nowych dokumentów.
  • Wynik : automatyczna ocena tłumaczeń Mojżesza w porównaniu z tłumaczeniem wykonanym przez człowieka, traktowanym jako złoty standard, przy użyciu algorytmów metrycznych BLEU i NIST , aby mieć wyobrażenie o poziomie wydajności.
  • Przenieś szkolenia do innej lokalizacji : Aby przenieść silniki/treningi do innych folderów na tym samym lub innym komputerze.

MMM jest dostarczany z 200 000-segmentowym korpusem demonstracyjnym — który jest zbyt mały, aby oddać sprawiedliwość jakościowym wynikom osiągalnym za pomocą Moses, ale może dać realistyczny obraz względnego czasu trwania wymaganych kroków i przydatny do sprawdzenia, czy instalacja została wykonana prawidłowo . Aby uzyskać dobre wyniki, na ogół potrzebny jest korpus z kilkoma milionami segmentów. Każdy korpus ortogonalny składa się z dwóch ściśle dopasowanych plików UTF-8, jednego w języku źródłowym, a drugiego w języku docelowym. Nie jest wymagana znajomość gramatyki, chociaż niektóre pary językowe dają lepsze wyniki niż inne. Generalnie języki bogate morfologicznie dają gorsze wyniki.

Dodatki

MMM zawiera również (dla systemów Windows i Linux):

  • Extract_TMX_Corpus : Aplikacja do konwersji jednego lub więcej plików w formacie TMX na dwa równoległe i doskonale dopasowane pliki (w języku źródłowym i docelowym) potrzebne do szkolenia pary językowej.
  • Moses2TMX : aplikacja do wyrównywania oryginałów i tłumaczeń Mojżesza oraz do pakowania każdego pliku w plik TMX z określonymi atrybutami, dzięki czemu tłumaczenia Mojżesza są identyfikowane jako MT i jako przetłumaczone przez Mojżesza i mogą być używane z narzędziem pamięci tłumaczeniowej, z karą względem ludzkich wspomnień.

MMM zawiera również plik Nonbreaking_prefix.pt , listę skrótów specyficznych dla języka portugalskiego, opartą na wersjach angielskiej i niemieckiej, które są już dostępne w pakiecie Moses.

Funkcje oprogramowania

Moses for Mere Mortals ma również kilka oryginalnych funkcji:

  • Usuwa znaki kontrolne z plików wejściowych (mogą one spowodować awarię szkolenia);
  • Z korpusu wyodrębnia 2 pliki szkoleniowe, 2 pliki dostrajające i 2 pliki testowe (jeden w języku źródłowym i jeden w języku docelowym) z losowo wybranymi, niekolejnymi segmentami, które są usuwane z plików korpusu;
  • Nowe szkolenie nie ingeruje w akta poprzedniego szkolenia;
  • Nowe szkolenie wykorzystuje w jak największym stopniu pliki utworzone w poprzednich szkoleniach (oszczędzając w ten sposób czas);
  • Kończy się komunikatem informacyjnym, jeśli którykolwiek z etapów szkolenia (budowanie modelu językowego, trening rekaserów, trening korpusu, mapowanie pamięci, strojenie lub test treningowy) nie daje oczekiwanych rezultatów;
  • Może ograniczyć czas strojenia do określonej liczby iteracji;
  • Może generować w jednym kroku wyniki BLEU i NIST dla jednego tłumaczenia lub zestawu tłumaczeń znajdujących się w katalogu (albo dla każdego całego dokumentu, albo dla każdego segmentu każdego dokumentu);
  • Umożliwia przeniesienie szkoleń korpusu na inny komputer lub do innej instalacji w tym samym komputerze;
  • Pozwala kontrolować parametry mkcls, GIZA i MGIZA za pomocą parametrów w skrypcie pociągu;
  • Pozwala sterować wybranymi parametrami w skryptach Moses i dekoderze Moses za pomocą skryptów uczenia i tłumaczenia.