Tłumaczenie maszynowe oparte na słownikach
Tłumaczenie maszynowe może wykorzystywać metodę opartą na hasłach słownikowych , co oznacza, że słowa zostaną przetłumaczone tak, jak robi to słownik – słowo po słowie, zwykle bez większej korelacji znaczeniowej między nimi. Wyszukiwanie w słowniku może odbywać się z analizą morfologiczną lub lematyzacją lub bez niej . Chociaż to podejście do tłumaczenia maszynowego jest prawdopodobnie najmniej wyrafinowane, tłumaczenie maszynowe oparte na słownikach idealnie nadaje się do tłumaczenia długich list fraz na poziomie podzdaniowym (tj. nie pełnego zdania), np. zapasów lub prostych katalogów produktów i usług .
Można go również wykorzystać do przyspieszenia tłumaczenia ręcznego, jeśli osoba, która go wykonuje, biegle włada obydwoma językami, a zatem jest w stanie poprawić składnię i gramatykę.
LMT
LMT, wprowadzony około 1990 roku, to oparty na Prologu system tłumaczenia maszynowego, który działa na specjalnie stworzonych słownikach dwujęzycznych, takich jak Collins angielsko-niemiecki (CEG), które zostały przepisane w zindeksowanej formie, łatwej do odczytania przez komputery. Metoda ta wykorzystuje ustrukturyzowaną leksykalną bazę danych (LDB) w celu poprawnej identyfikacji kategorii słów z języka źródłowego, a tym samym konstruowania spójnego zdania w języku docelowym, w oparciu o podstawową analizę morfologiczną. System ten wykorzystuje „ramki” do określenia pozycji, jaką z syntaktycznego punktu widzenia powinno zajmować określone słowo w zdaniu. Te „ramki” są odwzorowywane za pomocą konwencji językowych, takich jak UDICT w przypadku języka angielskiego.
W swojej wczesnej (prototypowej) formie LMT używa trzech leksykonów, do których uzyskuje się jednoczesny dostęp: źródłowy, transferowy i docelowy, chociaż możliwe jest zawarcie całej tej informacji w jednym leksykonie. Program wykorzystuje konfigurację leksykalną składającą się z dwóch głównych elementów. Pierwszym elementem jest ręcznie zakodowany dodatek do leksykonu, który zawiera możliwe nieprawidłowe tłumaczenia. Drugim elementem są różne słowniki dwujęzyczne i jednojęzyczne dotyczące dwóch języków źródłowych i docelowych.
Tłumaczenie maszynowe oparte na przykładach i słownikach
Ta metoda tłumaczenia maszynowego opartego na słownikach eksploruje inny paradygmat niż systemy takie jak LMT. Oparty na przykładach tłumaczenia maszynowego jest dostarczany tylko z „dwujęzycznym korpusem dopasowanym do zdań”. Korzystając z tych danych, program tłumaczący generuje „słownik dwujęzyczny słowo w słowo”, który jest używany do dalszego tłumaczenia.
Chociaż ten system byłby ogólnie uważany za zupełnie inny sposób tłumaczenia maszynowego niż tłumaczenie maszynowe oparte na słownikach, ważne jest, aby zrozumieć uzupełniającą naturę tych paradygmatów. Dzięki połączonym możliwościom tkwiącym w obu systemach, w połączeniu z faktem, że tłumaczenie maszynowe oparte na słownikach działa najlepiej z listami słów „słownika dwujęzycznego” słowo w słowo, pokazuje to fakt, że połączenie tych dwóch silników tłumaczeniowych wygenerowałoby bardzo potężne narzędzie do tłumaczenia, które oprócz tego, że jest dokładne pod względem semantycznym, jest w stanie ulepszać własne funkcje poprzez ciągłe pętle sprzężenia zwrotnego.
Systemem, który łączy oba paradygmaty w sposób podobny do tego, który został opisany w poprzednim akapicie, jest silnik tłumaczenia maszynowego oparty na przykładach Pangloss (PanEBMT). PanEBMT używa tabeli korespondencji między językami do tworzenia swojego korpusu. Ponadto PanEBMT obsługuje wiele operacji przyrostowych na swoim korpusie, co ułatwia tendencyjne tłumaczenie używane do celów filtrowania.
Równoległe przetwarzanie tekstu
Douglas Hofstadter poprzez swoją książkę „Le Ton beau de Marot: Pochwała muzyki języka” udowadnia, jak złożonym zadaniem jest tłumaczenie. Autor stworzył i przeanalizował dziesiątki możliwych tłumaczeń osiemnastowersowego francuskiego wiersza, ujawniając w ten sposób złożone wewnętrzne funkcjonowanie składni, morfologii i znaczenia. W przeciwieństwie do większości wyszukiwarek, które wybierają pojedyncze tłumaczenie na podstawie wzajemnego porównywania tekstów zarówno w języku źródłowym, jak i docelowym, praca Douglasa Hofstadtera dowodzi nieodłącznego poziomu błędu, który występuje w każdej formie tłumaczenia, gdy znaczenie źródła tekst jest zbyt szczegółowy lub złożony. W ten sposób zwrócono uwagę na problem wyrównania tekstu i „statystyki języka”.
Te rozbieżności doprowadziły Martina Kaya do poglądów na temat tłumaczeń i silników tłumaczeniowych jako całości. Jak to ujął Kay: „Bardziej znaczące sukcesy w tych przedsięwzięciach będą wymagały ostrzejszego obrazu świata niż jakikolwiek, który można uzyskać po prostu na podstawie statystyk używania języka” [(strona xvii) Równoległe przetwarzanie tekstu: wyrównanie i wykorzystanie korpusów tłumaczeń] . W ten sposób Kay przywróciła na światło dzienne kwestię znaczenia wewnątrz języka i zniekształcenia znaczenia poprzez procesy tłumaczenia.
Leksykalna struktura pojęciowa
Jednym z możliwych zastosowań tłumaczenia maszynowego opartego na słownikach jest ułatwianie „korepetycji z języków obcych” (FLT). Można to osiągnąć, wykorzystując technologię tłumaczenia maszynowego, a także lingwistykę, semantykę i morfologię do tworzenia „słowników wielkoformatowych” w praktycznie dowolnym języku. Rozwój semantyki leksykalnej i lingwistyki komputerowej w latach 1990-1996 umożliwił rozkwit „przetwarzania języka naturalnego” (NLP), zyskując nowe możliwości, niemniej jednak ogólnie przynosząc korzyści tłumaczeniu maszynowemu.
„Leksykalna struktura pojęciowa” (LCS) to reprezentacja niezależna od języka. Jest najczęściej używany w korepetycjach z języków obcych, zwłaszcza w elemencie przetwarzania języka naturalnego w FLT. LCS okazał się również niezbędnym narzędziem do wszelkiego rodzaju tłumaczeń maszynowych, takich jak tłumaczenie maszynowe oparte na słownikach. Ogólnie rzecz biorąc, jednym z głównych celów LCS jest „wykazanie, że sensy czasowników synonimicznych mają wspólne wzorce dystrybucji”.
„DKvec”
„DKvec to metoda wydobywania dwujęzycznych leksykonów z hałaśliwych korpusów równoległych na podstawie odległości przybycia słów w hałaśliwych korpusach równoległych”. Ta metoda pojawiła się w odpowiedzi na dwa problemy nękające statystyczną ekstrakcję leksykonów dwujęzycznych: „(1) W jaki sposób można używać hałaśliwych korpusów równoległych? (2) W jaki sposób można używać korpusów nierównoległych, ale porównywalnych?”
Metoda „DKvec” okazała się nieoceniona w ogólnym tłumaczeniu maszynowym ze względu na niesamowity sukces, jaki odniosła w próbach przeprowadzonych zarówno na angielsko-japońskim, jak i angielsko-chińskim hałaśliwym korpusie równoległym. Dane dotyczące dokładności „pokazują 55,35% precyzji z małego korpusu i 89,93% precyzji z większego korpusu”. Przy tak imponujących liczbach można bezpiecznie założyć, że metody takie jak „DKvec” wywarły ogromny wpływ na ogólną ewolucję tłumaczenia maszynowego, zwłaszcza tłumaczenia maszynowego opartego na słownikach.
Algorytmy stosowane do wyodrębniania korpusów równoległych w formacie dwujęzycznym wykorzystują następujące zasady w celu osiągnięcia zadowalającej dokładności i ogólnej jakości:
- Słowa mają jeden sens na korpus
- Słowa mają pojedyncze tłumaczenie na korpus
- Brak brakujących tłumaczeń w dokumencie docelowym
- Częstotliwości występowania słów dwujęzycznych są porównywalne
- Pozycje wystąpień słów dwujęzycznych są porównywalne
Te metody mogą być używane do generowania lub wyszukiwania wzorców występowania, które z kolei są wykorzystywane do tworzenia binarnych wektorów występowania, które są wykorzystywane przez metodę „DKvec”.
Historia tłumaczenia maszynowego
Historia tłumaczenia maszynowego (MT) zaczyna się mniej więcej w połowie lat czterdziestych XX wieku. Tłumaczenia maszynowe były prawdopodobnie pierwszym przypadkiem, w którym komputery zostały użyte do celów innych niż numeryczne. Tłumaczenie maszynowe cieszyło się dużym zainteresowaniem badawczym w latach pięćdziesiątych i sześćdziesiątych, po czym nastąpiła stagnacja aż do lat osiemdziesiątych. Po latach 80. tłumaczenie maszynowe ponownie stało się głównym nurtem, ciesząc się jeszcze większą popularnością niż w latach 50.
Podstawowa koncepcja tłumaczenia maszynowego wywodzi się z XVII wieku w spekulacjach dotyczących „języków uniwersalnych i słowników mechanicznych”. Pierwsze prawdziwe praktyczne sugestie dotyczące tłumaczenia maszynowego zostały przedstawione w 1933 roku przez Georgesa Artsrouniego we Francji i Petra Trojanskiego w Rosji. Obaj mieli opatentowane maszyny, które ich zdaniem można było wykorzystać do tłumaczenia znaczenia z jednego języka na inny. „W czerwcu 1952 r. Yehoshua Bar-Hillel zwołał pierwszą konferencję MT w MIT”. W dniu 7 stycznia 1954 roku konwencja Machine Translation w Nowym Jorku, sponsorowana przez IBM, służyła spopularyzowaniu tej dziedziny. Popularność konwencji wynikała z tłumaczenia krótkich zdań z języka angielskiego na język rosyjski. To inżynierskie osiągnięcie zahipnotyzowało opinię publiczną oraz rządy zarówno Stanów Zjednoczonych, jak i ZSRR, które w ten sposób stymulowały finansowanie na dużą skalę badań nad tłumaczeniem maszynowym. Chociaż entuzjazm dla tłumaczenia maszynowego był niezwykle wysoki, ograniczenia techniczne i wiedza doprowadziły do rozczarowań co do tego, co faktycznie było w stanie zrobić tłumaczenie maszynowe, przynajmniej w tamtym czasie. W ten sposób tłumaczenie maszynowe straciło na popularności aż do lat 80. XX wieku, kiedy to postęp w lingwistyce i technologii pomógł ożywić zainteresowanie tą dziedziną.
Translingwalne wyszukiwanie informacji
„Translingualne wyszukiwanie informacji (TLIR) polega na zadaniu zapytania w jednym języku i przeszukiwaniu zbiorów dokumentów w jednym lub kilku różnych językach”. Większość metod TLIR można podzielić na dwie kategorie, a mianowicie podejścia statystyczne-IR i tłumaczenie zapytań. TLIR oparty na tłumaczeniu maszynowym działa na jeden z dwóch sposobów. Albo zapytanie jest tłumaczone na język docelowy, albo oryginalne zapytanie jest używane do wyszukiwania, podczas gdy zbiór możliwych wyników jest tłumaczony na język zapytania i używany do odsyłaczy. Obie metody mają wady i zalety, a mianowicie:
- Dokładność tłumaczenia – poprawność każdego tłumaczenia maszynowego zależy od wielkości tłumaczonego tekstu, dlatego krótkie teksty lub słowa mogą być obarczone większym stopniem błędów semantycznych, a także niejasności leksykalnych, podczas gdy większy tekst może zapewnić kontekst, który pomaga w ujednoznacznieniu.
- Dokładność wyszukiwania – w oparciu o tę samą logikę, o której mowa w poprzednim punkcie, lepiej jest tłumaczyć całe dokumenty niż zapytania, ponieważ duże teksty prawdopodobnie ucierpią z powodu mniejszej utraty znaczenia w tłumaczeniu niż krótkie zapytania.
- Praktyczność – w przeciwieństwie do poprzednich punktów, tłumaczenie krótkich zapytań to najlepsza droga. Dzieje się tak dlatego, że łatwo jest tłumaczyć krótkie teksty, podczas gdy tłumaczenie całych bibliotek wymaga dużych zasobów, a ponadto objętość takiego zadania tłumaczeniowego wymaga indeksowania nowo przetłumaczonych dokumentów
Wszystko to dowodzi, że tłumaczenie maszynowe oparte na słownikach jest najbardziej wydajną i niezawodną formą tłumaczenia podczas pracy z TLIR. Dzieje się tak, ponieważ proces „wyszukuje każdy termin zapytania w dwujęzycznym słowniku ogólnego przeznaczenia i wykorzystuje wszystkie możliwe tłumaczenia”.
Tłumaczenie maszynowe bardzo bliskich języków
Przykłady RUSLAN, słownikowego systemu tłumaczenia maszynowego między czeskim a rosyjskim oraz CESILKO, czesko-słowackiego systemu tłumaczenia maszynowego opartego na słownikach, pokazują, że w przypadku bardzo bliskich języków prostsze metody tłumaczenia są bardziej wydajne, szybsze i niezawodne.
System RUSLAN powstał w celu udowodnienia hipotez, że języki pokrewne są łatwiejsze do przetłumaczenia. Rozwój systemu rozpoczął się w 1985 roku i został zakończony pięć lat później z powodu braku dalszych funduszy. Wnioski wyciągnięte z eksperymentu RUSLAN są takie, że podejście do tłumaczenia oparte na transferze zachowuje swoją jakość niezależnie od tego, jak bliskie są sobie języki. Dwa główne wąskie gardła „pełnoprawnych systemów opartych na transferze” to złożoność i zawodność analizy składniowej.
Wielojęzyczne wyszukiwanie informacji MLIR
„Systemy wyszukiwania informacji porządkują dokumenty według statystycznych miar podobieństwa opartych na współwystępowaniu terminów w zapytaniach i dokumentach”. System MLIR został stworzony i zoptymalizowany w taki sposób, aby umożliwiał tłumaczenie zapytań w oparciu o słownik. Dzieje się tak dlatego, że zapytania są zazwyczaj krótkie, kilka słów, co mimo, że nie dostarcza dużego kontekstu, jest bardziej wykonalne niż tłumaczenie całych dokumentów, ze względów praktycznych. Mimo to system MLIR jest w dużym stopniu zależny od wielu zasobów, takich jak oprogramowanie do automatycznego wykrywania języka .
Zobacz też
- Tłumaczenie maszynowe oparte na przykładach
- Branża językowa
- Tłumaczenie maszynowe
- Neuronowe tłumaczenie maszynowe
- Tłumaczenie maszynowe oparte na regułach
- Statystyczne tłumaczenie maszynowe
- Tłumaczenie