Automatyczny tłumacz języka

IBM Automatic Language Translator był systemem tłumaczenia maszynowego , który konwertował rosyjskie dokumenty na angielski . Używał dysku optycznego , który przechowywał 170 000 tłumaczeń słowo w słowo i zdanie po oświadczeniu, oraz niestandardowego komputera do wyszukiwania ich z dużą szybkością. Zbudowany dla Sił Powietrznych Stanów Zjednoczonych , AN/GSQ-16 (lub XW-2 ), jak było znane Siłom Powietrznym, był używany głównie do konwertowania sowieckich dokumentów technicznych w celu dystrybucji wśród zachodnich naukowców. Translator został zainstalowany w 1959 r., radykalnie zmodernizowany w 1964 r., aw 1970 r. został ostatecznie zastąpiony komputerem typu mainframe z systemem SYSRAN .

Historia

Sklep fotograficzny

Tłumacz rozpoczął pracę w czerwcu 1953 roku w kontrakcie zawartym przez US Navy z International Telemeter Corporation (ITC) z Los Angeles. Nie dotyczyło to systemu tłumaczeń, ale czysty kontrakt badawczo-rozwojowy dotyczący wysokowydajnego fotograficznego nośnika pamięci online, składającego się z małych czarnych prostokątów osadzonych na plastikowym dysku. Kiedy wygasł pierwotny kontrakt, ówczesne Centrum Rozwoju Lotnictwa w Rzymie (RADC) podjęło dalsze finansowanie w 1954 roku i później.

System został opracowany przez Gilberta Kinga, szefa inżynierii w ITC, wraz z zespołem, w skład którego wchodził Louis Ridenour . Ewoluował w 16-calowy plastikowy dysk z danymi zarejestrowanymi jako seria mikroskopijnych czarnych prostokątów lub wyraźnych plam. Do przechowywania wykorzystano tylko najbardziej zewnętrzne 4 cale dysku, co zwiększyło prędkość liniową dostępnej części. Kiedy dysk obracał się z prędkością 2400 obr./min, miał prędkość dostępu około 1 Mbit/s. W sumie system przechowywał 30 Mbitów, co czyni go systemem online o największej gęstości w swojej epoce.

Marek I

W 1954 roku firma IBM przeprowadziła wpływową demonstrację tłumaczenia maszynowego, znaną dziś jako „ eksperyment Georgetown-IBM ”. Działający na komputerze mainframe IBM 704 system tłumaczeniowy znał tylko 250 słów w języku rosyjskim ograniczonych do dziedziny chemii organicznej i tylko 6 reguł gramatycznych służących do ich łączenia. Niemniej jednak wyniki były niezwykle obiecujące i szeroko opisywane w prasie.

W tamtym czasie większość badaczy zajmujących się rodzącą się dziedziną tłumaczenia maszynowego uważała, że głównym wyzwaniem dla zapewnienia rozsądnych tłumaczeń było zbudowanie dużej biblioteki, ponieważ ówczesne urządzenia pamięci masowej były zarówno zbyt małe, jak i zbyt wolne, aby mogły być przydatne w tej roli. King uważał, że magazyn fotoskopów jest naturalnym rozwiązaniem problemu i przedstawił Siłom Powietrznym pomysł zautomatyzowanego systemu tłumaczenia opartego na fotosklepie. RADC okazał zainteresowanie i zapewnił grant badawczy w maju 1956 r. W tym czasie Siły Powietrzne przyznały również grant naukowcom z University of Washington którzy pracowali nad problemem stworzenia optymalnego słownika tłumaczeniowego dla projektu.

King opowiadał się za prostym podejściem do tłumaczeń słowo w słowo. Uważał, że naturalna redundancja języka pozwoli na zrozumienie nawet słabego tłumaczenia, a sam kontekst lokalny wystarczy, aby zapewnić rozsądne domysły w obliczu niejednoznacznych terminów. Stwierdził, że „sukces człowieka w osiągnięciu prawdopodobieństwa 0,50 w przewidywaniu słów w zdaniu wynika w dużej mierze z jego doświadczenia i prawdziwego znaczenia już odkrytych słów”. Innymi słowy, zwykłe przetłumaczenie samych słów pozwoliłoby człowiekowi skutecznie przeczytać dokument, ponieważ byłby w stanie wywnioskować właściwe znaczenie z kontekstu dostarczonego przez wcześniejsze słowa.

W 1958 roku King przeniósł się do IBM Thomas J. Watson Research Center i kontynuował rozwój tłumacza opartego na fotosklepie. Z biegiem czasu King zmienił podejście z czystego tłumacza słowo w słowo na takie, które przechowuje „rody i zakończenia”, które dzieliły słowa na części, które można było ponownie połączyć, aby ponownie utworzyć kompletne słowa.

Pierwsza maszyna, „Mark I”, została zademonstrowana w lipcu 1959 roku i składała się ze słownika zawierającego 65 000 słów oraz niestandardowego komputera lampowego do wyszukiwania. Teksty były ręcznie kopiowane na dziurkowane karty przy użyciu niestandardowych terminali cyrylicy, a następnie wprowadzane do maszyny w celu tłumaczenia. Wyniki nie były imponujące, ale wystarczyły, aby zasugerować, że większa i szybsza maszyna byłaby rozsądnym rozwiązaniem. W międzyczasie znak I został zastosowany do tłumaczeń sowieckiej gazety „ Prawda” . Wyniki nadal były wątpliwe, ale King ogłosił to sukcesem, stwierdzając w Scientific American że system został „...w ocenie operacyjnej uznany za całkiem użyteczny przez rząd”.

Marka II

4 października 1957 ZSRR wystrzelił Sputnika 1 , pierwszego sztucznego satelitę. Wywołało to falę niepokoju w Stanach Zjednoczonych, których własny projekt Vanguard został przyłapany na płaskiej stopie, a następnie wielokrotnie okazywał się spektakularnym niepowodzeniem. Ten żenujący obrót wydarzeń doprowadził do ogromnych inwestycji w amerykańską naukę i technologię, w tym utworzenie DARPA , NASA i różnych wysiłków wywiadowczych, które miałyby próbować uniknąć ponownego zaskoczenia w ten sposób.

Po krótkim okresie działania wywiadowcze zostały scentralizowane w Bazie Sił Powietrznych Wright Patterson jako Dywizja Technologii Zagranicznych (FTD, obecnie znana jako Narodowe Centrum Wywiadu Powietrznego i Kosmicznego ), kierowana przez Siły Powietrzne przy udziale DIA i innych organizacji. Zadaniem FTD było tłumaczenie sowieckich i innych z bloku warszawskiego, aby badacze z „zachodu” mogli być na bieżąco z wydarzeniami za żelazną kurtyną . Większość z tych dokumentów była publicznie dostępna, ale FTD wykonała również szereg jednorazowych tłumaczeń innych materiałów na żądanie.

Zakładając, że brakowało wykwalifikowanych tłumaczy, FTD bardzo zainteresowało się wysiłkami Kinga w IBM. Wkrótce pojawiły się fundusze na zmodernizowaną maszynę i rozpoczęto prace nad systemem „Mark II” opartym na komputerze tranzystorowym z szybszym i pojemniejszym 10-calowym szklanym dyskiem optycznym obracającym się z prędkością 2400 obr./min. Kolejnym dodatkiem był optyczny czytnik znaków dostarczony przez stronę trzecią, który, jak mieli nadzieję, wyeliminuje czasochłonny proces kopiowania rosyjskiego tekstu na karty do odczytu maszynowego.

W 1960 roku zespół z Waszyngtonu również dołączył do IBM, przynosząc ze sobą swoje wysiłki słownikowe. Słownik nadal się rozwijał w miarę udostępniania dodatkowej pamięci, osiągając 170 000 słów i terminów do czasu zainstalowania go w FTD. W Mark II wprowadzono również dużą aktualizację oprogramowania, którą King nazwał „wypychaniem słownika”. Wypychanie było próbą poradzenia sobie z problemami niejednoznacznych słów poprzez „wpychanie” do nich przedrostków z wcześniejszych wyrazów w tekście. Te zmodyfikowane słowa pasowałyby do podobnie wypchanych słów w słowniku, zmniejszając liczbę fałszywych trafień.

W 1962 roku King opuścił IBM dla firmy Itek , kontraktora wojskowego, który był w trakcie szybkiego zdobywania nowych technologii. Rozwój w IBM był kontynuowany, a system zaczął działać w FTD w lutym 1964. System został zademonstrowany na Światowych Targach Nowego Jorku w 1964 roku . Wersja na Targi zawierała słownik zawierający 150 000 słów, z czego około 1/3 słów we frazach. Około 3500 z nich było przechowywanych w pamięci rdzeniowej w celu poprawy wydajności i deklarowano średnią prędkość 20 słów na minutę. Wyniki starannie dobranego tekstu wejściowego były imponujące. Po powrocie do FTD był używany nieprzerwanie do 1970 roku, kiedy to został zastąpiony maszyną z systemem SYSTRAN .

Raport ALPAC

W 1964 roku Departament Obrony Stanów Zjednoczonych zlecił Narodowej Akademii Nauk Stanów Zjednoczonych (NAS) przygotowanie raportu na temat stanu tłumaczenia maszynowego. NAS utworzył „Komitet Doradczy ds. Automatycznego Przetwarzania Języka” lub ALPAC i opublikował swoje ustalenia w 1966 r. Raport „ Język i maszyny: komputery w tłumaczeniu i lingwistyce” , był bardzo krytyczny wobec istniejących wysiłków, wykazując, że systemy nie były szybsze od tłumaczeń wykonywanych przez ludzi, jednocześnie wykazując, że rzekomy brak tłumaczy był w rzeczywistości nadwyżką, a w wyniku problemów z podażą i popytem tłumaczenie wykonane przez człowieka było stosunkowo niedrogie – około 6 USD za 1000 słów. Co gorsza, FTD również był wolniejszy; testy wykorzystujące prace z fizyki jako dane wejściowe wykazały, że tłumacz był „o 10 procent mniej dokładny, o 21 procent wolniejszy i miał poziom zrozumienia o 29 procent niższy niż wtedy, gdy używał tłumaczenia ludzkiego”.

Raport ALPAC był równie wpływowy, jak eksperyment w Georgetown dekadę wcześniej; bezpośrednio po jego publikacji rząd USA zawiesił prawie całe finansowanie badań nad tłumaczeniem maszynowym. Bieżąca praca w IBM i Itek zakończyła się w 1966 roku, pozostawiając pole Europejczykom, którzy kontynuowali rozwój systemów takich jak SYSTRAN i Logos.

Notatki

Cytaty

Bibliografia

GW King, GW Brown i LN Ridenour, „Techniki fotograficzne do przechowywania informacji”, Proceedings of the IRE , tom 41, wydanie 10 (październik 1953), s. 1421–1428
GW King, „Stochastyczne metody tłumaczenia mechanicznego”, tłumaczenie mechaniczne , tom 3, wydanie 2 (1956), s. 38–39
JL Craft, EH Goldman, WB Strohm, „A Table Look-up Machine for Processing of Natural Languages” , IBM Journal , lipiec 1961, s. 192–203
Komitet Doradczy ds. Przetwarzania Języka, „Język i maszyny: komputery w tłumaczeniu i lingwistyce” , National Research Council , 1966 (powszechnie znany jako „raport ALPAC”)
John Hutchins (red.), „Gilbert W. King and the IBM-USAF Translator” , Early Years in Machine Translation , Joh Benjamins, 2000, ISBN 90-272-4586-X (RADC-TDR-62-105)
Charles Bourne i Trudi Bellardo Hahn, „Historia internetowych usług informacyjnych, 1963–1976” , MIT Press, 2003, ISBN 0-262-02538-8