Mojżesz dla zwykłych śmiertelników
Moses for Mere Mortals ( MMM ) to darmowe oprogramowanie typu open source składające się z zestawu skryptów zaprojektowanych w celu umożliwienia automatyzacji procesów instalacji i obsługi Moses Open Source Translation System , statystycznego systemu tłumaczenia maszynowego .
MMM buduje prototyp łańcucha tłumaczeń z Moses + IRSTLM + RandLM + MGIZA.
Pierwsza wersja Moses for Mere Mortals została opublikowana w listopadzie 2009 roku i została zaktualizowana i przetestowana na dystrybucjach Linux - Ubuntu. MMM jest dostępny w GitHub Project Hosting .
Przegląd
Jego głównymi celami są:
- pomóc zbudować prototyp łańcucha tłumaczeń dla świata rzeczywistego;
- kierować pierwszymi krokami użytkowników, którzy dopiero zaczynają korzystać z Mojżesza;
- umożliwiają prostą i szybką ocenę Mojżesza;
- umożliwiać użytkownikowi wykonywanie własnych tłumaczeń bez konieczności ufania stronom trzecim (tłumaczącym);
- zintegrować tłumaczenie maszynowe i pamięci tłumaczeniowe.
Mimo że główny nacisk koncentruje się na Linuksie , dwa dodatki do systemu Windows pomagają w przejściu z systemu Windows do systemu Linux, a następnie z powrotem z systemu Linux.
Główne cechy
Mojżesz pozwala na trenowanie korpusów, w których każde słowo jest prezentowane razem z, na przykład, odpowiednim lematem i/lub częścią znacznika mowy („trening faktorowy”). Skrypty nie obejmują tego typu szkoleń.
MMM składa się z siedmiu skryptów dla systemu Linux, dokładnie przetestowanych z Ubuntu (12.04 i 14.04, 64-bit):
- Zainstaluj : Aby zainstalować w Ubuntu pakiety, od których zależą zarówno Moses, jak i Moses for Mere Mortals.
- Utwórz : Aby skompilować Mojżesza i inne wymagane pakiety za pomocą jednego polecenia.
- Make-test-files : Aby wyodrębnić z oryginalnego korpusu korpus do treningu, pliki do strojenia i pliki do testowania wyników treningu.
- Trenuj : Aby wyszkolić potrzebne pary językowe, ponieważ Mojżesz jest niezależny od języka i może pracować z dowolnym językiem/alfabetem.
- Tłumacz : Do tworzenia tłumaczeń maszynowych nowych dokumentów.
- Wynik : automatyczna ocena tłumaczeń Mojżesza w porównaniu z tłumaczeniem wykonanym przez człowieka, traktowanym jako złoty standard, przy użyciu algorytmów metrycznych BLEU i NIST , aby mieć wyobrażenie o poziomie wydajności.
- Przenieś szkolenia do innej lokalizacji : Aby przenieść silniki/treningi do innych folderów na tym samym lub innym komputerze.
MMM jest dostarczany z 200 000-segmentowym korpusem demonstracyjnym — który jest zbyt mały, aby oddać sprawiedliwość jakościowym wynikom osiągalnym za pomocą Moses, ale może dać realistyczny obraz względnego czasu trwania wymaganych kroków i przydatny do sprawdzenia, czy instalacja została wykonana prawidłowo . Aby uzyskać dobre wyniki, na ogół potrzebny jest korpus z kilkoma milionami segmentów. Każdy korpus ortogonalny składa się z dwóch ściśle dopasowanych plików UTF-8, jednego w języku źródłowym, a drugiego w języku docelowym. Nie jest wymagana znajomość gramatyki, chociaż niektóre pary językowe dają lepsze wyniki niż inne. Generalnie języki bogate morfologicznie dają gorsze wyniki.
Dodatki
MMM zawiera również (dla systemów Windows i Linux):
- Extract_TMX_Corpus : Aplikacja do konwersji jednego lub więcej plików w formacie TMX na dwa równoległe i doskonale dopasowane pliki (w języku źródłowym i docelowym) potrzebne do szkolenia pary językowej.
- Moses2TMX : aplikacja do wyrównywania oryginałów i tłumaczeń Mojżesza oraz do pakowania każdego pliku w plik TMX z określonymi atrybutami, dzięki czemu tłumaczenia Mojżesza są identyfikowane jako MT i jako przetłumaczone przez Mojżesza i mogą być używane z narzędziem pamięci tłumaczeniowej, z karą względem ludzkich wspomnień.
MMM zawiera również plik Nonbreaking_prefix.pt , listę skrótów specyficznych dla języka portugalskiego, opartą na wersjach angielskiej i niemieckiej, które są już dostępne w pakiecie Moses.
Funkcje oprogramowania
Moses for Mere Mortals ma również kilka oryginalnych funkcji:
- Usuwa znaki kontrolne z plików wejściowych (mogą one spowodować awarię szkolenia);
- Z korpusu wyodrębnia 2 pliki szkoleniowe, 2 pliki dostrajające i 2 pliki testowe (jeden w języku źródłowym i jeden w języku docelowym) z losowo wybranymi, niekolejnymi segmentami, które są usuwane z plików korpusu;
- Nowe szkolenie nie ingeruje w akta poprzedniego szkolenia;
- Nowe szkolenie wykorzystuje w jak największym stopniu pliki utworzone w poprzednich szkoleniach (oszczędzając w ten sposób czas);
- Kończy się komunikatem informacyjnym, jeśli którykolwiek z etapów szkolenia (budowanie modelu językowego, trening rekaserów, trening korpusu, mapowanie pamięci, strojenie lub test treningowy) nie daje oczekiwanych rezultatów;
- Może ograniczyć czas strojenia do określonej liczby iteracji;
- Może generować w jednym kroku wyniki BLEU i NIST dla jednego tłumaczenia lub zestawu tłumaczeń znajdujących się w katalogu (albo dla każdego całego dokumentu, albo dla każdego segmentu każdego dokumentu);
- Umożliwia przeniesienie szkoleń korpusu na inny komputer lub do innej instalacji w tym samym komputerze;
- Pozwala kontrolować parametry mkcls, GIZA i MGIZA za pomocą parametrów w skrypcie pociągu;
- Pozwala sterować wybranymi parametrami w skryptach Moses i dekoderze Moses za pomocą skryptów uczenia i tłumaczenia.