Automatyczny tłumacz języka

IBM Automatic Language Translator był systemem tłumaczenia maszynowego , który konwertował rosyjskie dokumenty na angielski . Używał dysku optycznego , który przechowywał 170 000 tłumaczeń słowo w słowo i zdanie po oświadczeniu, oraz niestandardowego komputera do wyszukiwania ich z dużą szybkością. Zbudowany dla Sił Powietrznych Stanów Zjednoczonych , AN/GSQ-16 (lub XW-2 ), jak było znane Siłom Powietrznym, był używany głównie do konwertowania sowieckich dokumentów technicznych w celu dystrybucji wśród zachodnich naukowców. Translator został zainstalowany w 1959 r., radykalnie zmodernizowany w 1964 r., aw 1970 r. został ostatecznie zastąpiony komputerem typu mainframe z systemem SYSRAN .

Historia

Sklep fotograficzny

Tłumacz rozpoczął pracę w czerwcu 1953 roku w kontrakcie zawartym przez US Navy z International Telemeter Corporation (ITC) z Los Angeles. Nie dotyczyło to systemu tłumaczeń, ale czysty kontrakt badawczo-rozwojowy dotyczący wysokowydajnego fotograficznego nośnika pamięci online, składającego się z małych czarnych prostokątów osadzonych na plastikowym dysku. Kiedy wygasł pierwotny kontrakt, ówczesne Centrum Rozwoju Lotnictwa w Rzymie (RADC) podjęło dalsze finansowanie w 1954 roku i później.

System został opracowany przez Gilberta Kinga, szefa inżynierii w ITC, wraz z zespołem, w skład którego wchodził Louis Ridenour . Ewoluował w 16-calowy plastikowy dysk z danymi zarejestrowanymi jako seria mikroskopijnych czarnych prostokątów lub wyraźnych plam. Do przechowywania wykorzystano tylko najbardziej zewnętrzne 4 cale dysku, co zwiększyło prędkość liniową dostępnej części. Kiedy dysk obracał się z prędkością 2400 obr./min, miał prędkość dostępu około 1 Mbit/s. W sumie system przechowywał 30 Mbitów, co czyni go systemem online o największej gęstości w swojej epoce.

Marek I

W 1954 roku firma IBM przeprowadziła wpływową demonstrację tłumaczenia maszynowego, znaną dziś jako „ eksperyment Georgetown-IBM ”. Działający na komputerze mainframe IBM 704 system tłumaczeniowy znał tylko 250 słów w języku rosyjskim ograniczonych do dziedziny chemii organicznej i tylko 6 reguł gramatycznych służących do ich łączenia. Niemniej jednak wyniki były niezwykle obiecujące i szeroko opisywane w prasie.

W tamtym czasie większość badaczy zajmujących się rodzącą się dziedziną tłumaczenia maszynowego uważała, że ​​głównym wyzwaniem dla zapewnienia rozsądnych tłumaczeń było zbudowanie dużej biblioteki, ponieważ ówczesne urządzenia pamięci masowej były zarówno zbyt małe, jak i zbyt wolne, aby mogły być przydatne w tej roli. King uważał, że magazyn fotoskopów jest naturalnym rozwiązaniem problemu i przedstawił Siłom Powietrznym pomysł zautomatyzowanego systemu tłumaczenia opartego na fotosklepie. RADC okazał zainteresowanie i zapewnił grant badawczy w maju 1956 r. W tym czasie Siły Powietrzne przyznały również grant naukowcom z University of Washington którzy pracowali nad problemem stworzenia optymalnego słownika tłumaczeniowego dla projektu.

King opowiadał się za prostym podejściem do tłumaczeń słowo w słowo. Uważał, że naturalna redundancja języka pozwoli na zrozumienie nawet słabego tłumaczenia, a sam kontekst lokalny wystarczy, aby zapewnić rozsądne domysły w obliczu niejednoznacznych terminów. Stwierdził, że „sukces człowieka w osiągnięciu prawdopodobieństwa 0,50 w przewidywaniu słów w zdaniu wynika w dużej mierze z jego doświadczenia i prawdziwego znaczenia już odkrytych słów”. Innymi słowy, zwykłe przetłumaczenie samych słów pozwoliłoby człowiekowi skutecznie przeczytać dokument, ponieważ byłby w stanie wywnioskować właściwe znaczenie z kontekstu dostarczonego przez wcześniejsze słowa.

W 1958 roku King przeniósł się do IBM Thomas J. Watson Research Center i kontynuował rozwój tłumacza opartego na fotosklepie. Z biegiem czasu King zmienił podejście z czystego tłumacza słowo w słowo na takie, które przechowuje „rody i zakończenia”, które dzieliły słowa na części, które można było ponownie połączyć, aby ponownie utworzyć kompletne słowa.

Pierwsza maszyna, „Mark I”, została zademonstrowana w lipcu 1959 roku i składała się ze słownika zawierającego 65 000 słów oraz niestandardowego komputera lampowego do wyszukiwania. Teksty były ręcznie kopiowane na dziurkowane karty przy użyciu niestandardowych terminali cyrylicy, a następnie wprowadzane do maszyny w celu tłumaczenia. Wyniki nie były imponujące, ale wystarczyły, aby zasugerować, że większa i szybsza maszyna byłaby rozsądnym rozwiązaniem. W międzyczasie znak I został zastosowany do tłumaczeń sowieckiej gazety „ Prawda” . Wyniki nadal były wątpliwe, ale King ogłosił to sukcesem, stwierdzając w Scientific American że system został „...w ocenie operacyjnej uznany za całkiem użyteczny przez rząd”.

Marka II

4 października 1957 ZSRR wystrzelił Sputnika 1 , pierwszego sztucznego satelitę. Wywołało to falę niepokoju w Stanach Zjednoczonych, których własny projekt Vanguard został przyłapany na płaskiej stopie, a następnie wielokrotnie okazywał się spektakularnym niepowodzeniem. Ten żenujący obrót wydarzeń doprowadził do ogromnych inwestycji w amerykańską naukę i technologię, w tym utworzenie DARPA , NASA i różnych wysiłków wywiadowczych, które miałyby próbować uniknąć ponownego zaskoczenia w ten sposób.

Po krótkim okresie działania wywiadowcze zostały scentralizowane w Bazie Sił Powietrznych Wright Patterson jako Dywizja Technologii Zagranicznych (FTD, obecnie znana jako Narodowe Centrum Wywiadu Powietrznego i Kosmicznego ), kierowana przez Siły Powietrzne przy udziale DIA i innych organizacji. Zadaniem FTD było tłumaczenie sowieckich i innych z bloku warszawskiego, aby badacze z „zachodu” mogli być na bieżąco z wydarzeniami za żelazną kurtyną . Większość z tych dokumentów była publicznie dostępna, ale FTD wykonała również szereg jednorazowych tłumaczeń innych materiałów na żądanie.

Zakładając, że brakowało wykwalifikowanych tłumaczy, FTD bardzo zainteresowało się wysiłkami Kinga w IBM. Wkrótce pojawiły się fundusze na zmodernizowaną maszynę i rozpoczęto prace nad systemem „Mark II” opartym na komputerze tranzystorowym z szybszym i pojemniejszym 10-calowym szklanym dyskiem optycznym obracającym się z prędkością 2400 obr./min. Kolejnym dodatkiem był optyczny czytnik znaków dostarczony przez stronę trzecią, który, jak mieli nadzieję, wyeliminuje czasochłonny proces kopiowania rosyjskiego tekstu na karty do odczytu maszynowego.

W 1960 roku zespół z Waszyngtonu również dołączył do IBM, przynosząc ze sobą swoje wysiłki słownikowe. Słownik nadal się rozwijał w miarę udostępniania dodatkowej pamięci, osiągając 170 000 słów i terminów do czasu zainstalowania go w FTD. W Mark II wprowadzono również dużą aktualizację oprogramowania, którą King nazwał „wypychaniem słownika”. Wypychanie było próbą poradzenia sobie z problemami niejednoznacznych słów poprzez „wpychanie” do nich przedrostków z wcześniejszych wyrazów w tekście. Te zmodyfikowane słowa pasowałyby do podobnie wypchanych słów w słowniku, zmniejszając liczbę fałszywych trafień.

W 1962 roku King opuścił IBM dla firmy Itek , kontraktora wojskowego, który był w trakcie szybkiego zdobywania nowych technologii. Rozwój w IBM był kontynuowany, a system zaczął działać w FTD w lutym 1964. System został zademonstrowany na Światowych Targach Nowego Jorku w 1964 roku . Wersja na Targi zawierała słownik zawierający 150 000 słów, z czego około 1/3 słów we frazach. Około 3500 z nich było przechowywanych w pamięci rdzeniowej w celu poprawy wydajności i deklarowano średnią prędkość 20 słów na minutę. Wyniki starannie dobranego tekstu wejściowego były imponujące. Po powrocie do FTD był używany nieprzerwanie do 1970 roku, kiedy to został zastąpiony maszyną z systemem SYSTRAN .

Raport ALPAC

W 1964 roku Departament Obrony Stanów Zjednoczonych zlecił Narodowej Akademii Nauk Stanów Zjednoczonych (NAS) przygotowanie raportu na temat stanu tłumaczenia maszynowego. NAS utworzył „Komitet Doradczy ds. Automatycznego Przetwarzania Języka” lub ALPAC i opublikował swoje ustalenia w 1966 r. Raport „ Język i maszyny: komputery w tłumaczeniu i lingwistyce” , był bardzo krytyczny wobec istniejących wysiłków, wykazując, że systemy nie były szybsze od tłumaczeń wykonywanych przez ludzi, jednocześnie wykazując, że rzekomy brak tłumaczy był w rzeczywistości nadwyżką, a w wyniku problemów z podażą i popytem tłumaczenie wykonane przez człowieka było stosunkowo niedrogie – około 6 USD za 1000 słów. Co gorsza, FTD również był wolniejszy; testy wykorzystujące prace z fizyki jako dane wejściowe wykazały, że tłumacz był „o 10 procent mniej dokładny, o 21 procent wolniejszy i miał poziom zrozumienia o 29 procent niższy niż wtedy, gdy używał tłumaczenia ludzkiego”.

Raport ALPAC był równie wpływowy, jak eksperyment w Georgetown dekadę wcześniej; bezpośrednio po jego publikacji rząd USA zawiesił prawie całe finansowanie badań nad tłumaczeniem maszynowym. Bieżąca praca w IBM i Itek zakończyła się w 1966 roku, pozostawiając pole Europejczykom, którzy kontynuowali rozwój systemów takich jak SYSTRAN i Logos.

Notatki

Cytaty

Bibliografia

  • GW King, GW Brown i LN Ridenour, „Techniki fotograficzne do przechowywania informacji”, Proceedings of the IRE , tom 41, wydanie 10 (październik 1953), s. 1421–1428
  • GW King, „Stochastyczne metody tłumaczenia mechanicznego”, tłumaczenie mechaniczne , tom 3, wydanie 2 (1956), s. 38–39
  • JL Craft, EH Goldman, WB Strohm, „A Table Look-up Machine for Processing of Natural Languages” , IBM Journal , lipiec 1961, s. 192–203
  • Komitet Doradczy ds. Przetwarzania Języka, „Język i maszyny: komputery w tłumaczeniu i lingwistyce” , National Research Council , 1966 (powszechnie znany jako „raport ALPAC”)
  •   John Hutchins (red.), „Gilbert W. King and the IBM-USAF Translator” , Early Years in Machine Translation , Joh Benjamins, 2000, ISBN 90-272-4586-X (RADC-TDR-62-105)
  •   Charles Bourne i Trudi Bellardo Hahn, „Historia internetowych usług informacyjnych, 1963–1976” , MIT Press, 2003, ISBN 0-262-02538-8