Eksperyment Czarnoksiężnika z Krainy Oz

W dziedzinie interakcji człowiek-komputer z krainy Oz eksperyment Czarnoksiężnik to eksperyment badawczy , w którym badani wchodzą w interakcję z systemem komputerowym , który według badanych jest autonomiczny, ale który w rzeczywistości jest obsługiwany lub częściowo obsługiwany przez niewidzialną istotę ludzką .

Pojęcie

Wyrażenie Wizard of Oz (pierwotnie OZ Paradigm ) weszło do powszechnego użytku w dziedzinie psychologii eksperymentalnej , czynnika ludzkiego, ergonomii , językoznawstwa i inżynierii użyteczności opis metodologii testowania lub iteracyjnego projektowania, w której eksperymentator („kreator”) w warunkach laboratoryjnych symuluje zachowanie teoretycznej inteligentnej aplikacji komputerowej (często przechodząc do innego pokoju i przechwytując całą komunikację między uczestnikiem a systemem). Czasami odbywa się to za wcześniejszą wiedzą uczestnika, a czasami jest to oszustwo niskiego poziomu stosowane w celu zarządzania oczekiwaniami uczestnika i zachęcania do naturalnych zachowań.

Na przykład uczestnik testu może myśleć, że komunikuje się z komputerem za pomocą interfejsu głosowego, podczas gdy słowa uczestnika są w rzeczywistości potajemnie wprowadzane do komputera przez osobę w innym pokoju („kreator”) i przetwarzane jako strumień tekstowy, a nie jako strumień audio. Brakująca funkcjonalność systemu, którą zapewnia kreator, może zostać zaimplementowana w późniejszych wersjach systemu (lub może nawet być spekulatywnymi możliwościami, których nie mają obecne systemy), ale jej dokładne szczegóły są ogólnie uważane za nieistotne dla badania. W sytuacjach testowych celem takich eksperymentów może być obserwacja zastosowania i skuteczności proponowanego rozwiązania interfejsu użytkownika przez uczestników testu, a nie do mierzenia jakości całego systemu.

Pochodzenie

Nazwa eksperymentu pochodzi od opowieści o Cudownym Czarnoksiężniku z krainy Oz , w której zwykły człowiek chowa się za zasłoną i udaje, za pomocą „wzmacniającej” technologii, potężnego czarodzieja .

John F. („Jeff”) Kelley ukuł w tym celu wyrażenia „Czarnoksiężnik z krainy OZ” i „Paradygmat OZ” około 1980 r., aby opisać metodę, którą opracował podczas pracy doktorskiej na Uniwersytecie Johnsa Hopkinsa . [ potrzebne źródło ] (Jego doradcą w pracy doktorskiej był nieżyjący już profesor Alphonse Chapatis , „ojciec chrzestny czynnika ludzkiego i psychologii inżynierskiej”.) Co zabawne, oprócz niektórych luster weneckich i tym podobnych, była tam dosłownie zasłona zaciemniająca oddzielająca Jeffa, jako „Kreator”, widziany przez uczestnika podczas badania.

Technika „Experimenter-in-the-Loop” została zapoczątkowana w Chapatis' Communications Research Lab w Johns Hopkins już w 1975 roku (JF Kelley przybył w 1978). W. Randolph Ford zastosował technikę eksperymentatora w pętli w swoim innowacyjnym programie CHECKBOOK, w którym uzyskał próbki językowe w naturalistycznym otoczeniu. W metodzie Forda wstępna wersja systemu przetwarzania języka naturalnego byłaby umieszczana przed użytkownikiem. Gdy użytkownik wprowadził nierozpoznaną składnię, otrzymał komunikat „Czy mógłbyś to przeformułować?” monit z oprogramowania. Po sesji tworzone lub ulepszane byłyby algorytmy przetwarzania nowo uzyskanych próbek i następowałaby kolejna sesja. Takie podejście doprowadziło do ostatecznego rozwoju jego techniki przetwarzania języka naturalnego, „wieloetapowej redukcji wzorców”. Dr Ford przypomniał sobie, że dr Kelley rzeczywiście ukuł frazę „Czarnoksiężnik z Krainy Oz Paradygmat”, ale technika ta została zastosowana w co najmniej dwóch oddzielnych badaniach, zanim dr Kelley zaczął prowadzić badania w Johns Hopkins Telecommunications Lab. Podobne wczesne użycie tej techniki do modelowania systemu rozumienia języka naturalnego opracowywanego w Centrum Badawczym Xerox Palo Alto zostało wykonane przez Allena Munro i Dona Normana około 1975 roku na Uniwersytecie Kalifornijskim w San Diego. Ponownie nazwa „Czarnoksiężnik z Krainy Oz” nie została jeszcze zastosowana do tej techniki. Wyniki zostały opublikowane w artykule z 1977 roku przez zespół (Bobrow i in.).

W tym zawodzie eksperymentator („Czarodziej”) siedział przy terminalu w sąsiednim pokoju oddzielonym lustrem weneckim, aby można było obserwować podmiot. Każde dane wejściowe od użytkownika zostały poprawnie przetworzone dzięki połączeniu przetwarzania oprogramowania i interwencji eksperymentatora w czasie rzeczywistym. Ponieważ proces był powtarzany w kolejnych sesjach, dodawano coraz więcej komponentów oprogramowania, tak że eksperymentator miał coraz mniej do zrobienia podczas każdej sesji, aż do osiągnięcia asymptotycznego wzrostu słownika fraz/wyrazów i eksperymentator mógł „pójść po filiżankę kawy ” podczas sesji (która w tym momencie była krzyżową walidacją bezobsługowej wydajności ostatecznego systemu).

Ostatni punkt: wspomnienie doktora Kelleya o powstaniu tego terminu jest poparte wspomnieniem nieżyjącego już profesora Al Chapanisa. W swoim raporcie technicznym Uniwersytetu Michigan z 1985 r. Green i Wei-Haas stwierdzają, co następuje: Pierwsze pojawienie się nazwy „Czarnoksiężnik z krainy Oz” w druku miało miejsce w pracy magisterskiej Jeffa Kelleya (Kelley, 1983a, 1983b, 1984a). Uważa się, że nazwa została wymyślona w odpowiedzi na pytanie zadane na seminarium dla absolwentów w Hopkins (Chapanis, 1984; Kelley, 1984b). „Co się stanie, jeśli badany zobaczy eksperymentatora [za„ kurtyną ”w sąsiednim pokoju, który działa jak komputer]?” Kelley odpowiedział: „Cóż, to tak samo, jak to, co stało się z Dorothy w Czarnoksiężniku z krainy Oz”. I tak nazwa się przyjęła. (Cytowane za pozwoleniem.)

Istnieje również przelotna wzmianka o planowanym wykorzystaniu „eksperymentów z Czarnoksiężnikiem z Krainy Oz” w dokumencie z postępowania z 1982 r. autorstwa Forda i Smitha.

Jeden fakt, przedstawiony w rozprawie Kelleya, dotyczący etymologii tego terminu w tym kontekście: dr Kelley pierwotnie miał definicję akronimu „OZ” (pomijając oczywiste podobieństwa z książką The Wonderful Wizard of Oz z 1900 roku autorstwa L Franka Bauma ). „Offline Zero” odnosiło się do faktu, że eksperymentator („Kreator”) interpretował dane wprowadzane przez użytkowników w czasie rzeczywistym podczas fazy symulacji.

Podobne konfiguracje eksperymentalne były czasami używane wcześniej, ale bez nazwy „Czarnoksiężnik z Krainy Oz”. Badacz projektowania Nigel Cross przeprowadził w latach 60. badania z „symulowanymi” komputerowo wspomaganymi systemami projektowania, w których rzekomy symulator był w rzeczywistości operatorem, wykorzystującym komunikację tekstową i graficzną za pośrednictwem telewizji przemysłowej . Jak wyjaśnił: „Wszystko, co użytkownik postrzega w systemie, to ta konsola zdalnego dostępu, a reszta to dla niego czarna skrzynka. ... równie dobrze można wypełnić czarną skrzynkę ludźmi, jak i maszynami. stosunkowo tani symulator, z niezwykłymi zaletami elastyczności, pamięci i inteligencji ludzkiego operatora, który można przeprogramować tak, aby przydzielał komputerowi szeroki zakres ról jedynie poprzez zmianę zasad działania.Czasami brakuje mu szybkości i dokładności prawdziwego komputera , ale zespół ekspertów pracujących jednocześnie może zrekompensować to w wystarczającym stopniu, aby zapewnić akceptowalną symulację”. Cross nazwał to później rodzajem Odwrotny test Turinga .

Znaczenie

Metoda Czarnoksiężnika z krainy OZ jest bardzo potężna. W swojej oryginalnej aplikacji dr Kelley był w stanie stworzyć prosty system rozpoznawania języka naturalnego za pomocą klawiatury, który znacznie przewyższał współczynniki rozpoznawania wszystkich znacznie bardziej złożonych systemów tamtych czasów. [ potrzebne źródło ]

W tamtym czasie wielu informatyków i lingwistów uważało, że aby komputer był w stanie „rozumieć” język naturalny na tyle, aby mógł pomagać w przydatnych zadaniach, oprogramowanie musiałoby być podłączone do potężnego „ słownik” mający dużą liczbę kategorii dla każdego słowa. Kategorie umożliwiłyby bardzo złożonemu algorytmowi analizującemu rozwikłanie niejasności właściwych naturalnie wytworzonemu językowi. Zniechęcające zadanie stworzenia takiego słownika doprowadziło wielu do przekonania, że ​​komputery po prostu nigdy naprawdę nie „zrozumią” języka, dopóki nie zostaną „wychowane” i „doświadczą życia” jako ludzie, ponieważ wydaje się, że ludzie stosują doświadczenia warte życia do interpretacji języka. [ potrzebne źródło ]

Kluczowym czynnikiem umożliwiającym pierwsze użycie metody OZ było to, że system został zaprojektowany do pracy w jednym kontekście (przechowywanie kalendarza), co ograniczyło złożoność języka napotykanego przez użytkowników do tego stopnia, że ​​​​prosty model przetwarzania języka był wystarczający aby spełnić cele aplikacji. Model przetwarzania polegał na dwuprzebiegowym dopasowaniu słowa kluczowego/frazy kluczowej, luźno opartym na algorytmach zastosowanych w słynnym Eliza Weizenbauma . Skłaniając uczestników do generowania próbek językowych w kontekście rozwiązywania rzeczywistego zadania (przy użyciu komputera, który ich zdaniem rzeczywiście rozumiał, co piszą), różnorodność i złożoność zebranych struktur leksykalnych została znacznie zmniejszona i można było opracować proste algorytmy dopasowywania słów kluczowych aby odnieść się do rzeczywistego zebranego języka. [ potrzebne źródło ]

To pierwsze użycie OZ było w kontekście iteracyjnego podejścia do projektowania . We wczesnych sesjach rozwojowych eksperymentator symulował system w całości , wykonując wszystkie zapytania do bazy danych i ręcznie układając wszystkie odpowiedzi dla uczestników. W miarę dojrzewania procesu eksperymentator był w stanie zastąpić człowieka kawałek po kawałku nowo utworzonym kodem (który na każdym etapie został zaprojektowany w celu dokładnego przetwarzania wszystkich danych wejściowych wygenerowanych w poprzednich krokach). Pod koniec procesu eksperymentator był w stanie obserwować sesje w trybie „hands-off” (i mierzyć wskaźniki rozpoznawania ukończonego programu). [ potrzebne źródło ]

OZ było ważne, ponieważ odniosło się do oczywistej krytyki, że użycie metody iteracyjnej do zbudowania oddzielnego systemu języka naturalnego (słowniki, składnia) byłoby nierealistyczne dla każdego nowego kontekstu (ponieważ taka metoda wymagałaby wielokrotnego dodawania nowych struktur i algorytmów do obsługi każda nowa partia danych wejściowych). Empiryczne podejście OZ sprawiło, że było to wykonalne; w swojej oryginalnej aplikacji wzrost słownika i składni osiągnął asymptotyczny (osiągając od 86% do 97% współczynnik rozpoznawalności, w zależności od zastosowanych pomiarów) po zaledwie 16 próbach eksperymentalnych, a powstały program ze słownikami miał mniej niż 300 000 kodu.

W ciągu 23 lat, które nastąpiły po pierwszej publikacji, metoda OZ była stosowana w wielu różnych ustawieniach, zwłaszcza w prototypowaniu i testowaniu użyteczności proponowanych projektów interfejsów użytkownika przed wdrożeniem rzeczywistego oprogramowania. [ potrzebne źródło ]

Zobacz też

  • Odwrotny test Turinga - test Turinga, w którym cel lub role między komputerami a ludźmi zostały odwrócone
  • Chiński pokój — eksperyment myślowy o podobnym założeniu.
  • Turk - Czarnoksiężnik z krainy Oz używane jako fałszywa maszyna do gry w szachy

Oto niektóre z oryginalnych (i późniejszych) odniesień na ten temat (metoda została podchwycona w wielu dziedzinach badawczych i istnieje wiele późniejszych odniesień, z których tylko kilka jest tutaj wymienionych).

Podsumowanie technicznych aspektów pracy:

Kelley, JF, „CAL - program języka naturalnego opracowany z paradygmatem OZ: implikacje dla systemów superkomputerowych”. First International Conference on Supercomputing Systems (St. Petersburg, Floryda, 16–20 grudnia 1985), Nowy Jork, ACM, s. 238–248.

Krótki opis metody:

Kelley, JF, „Empiryczna metodologia pisania przyjaznych dla użytkownika aplikacji komputerowych w języku naturalnym”. Proceedings of ACM SIG-CHI '83 Human Factors in Computing systems (Boston, 12–15 grudnia 1983), Nowy Jork, ACM, s. 193-196. [1]

Najlepszy opis metody:

Kelley, JF, „Iteracyjna metodologia projektowania przyjaznych dla użytkownika aplikacji biurowych zawierających informacje w języku naturalnym”. ACM Transactions on Office Information Systems, marzec 1984, 2:1, s. 26–41. [2]

Sama nieopublikowana rozprawa:

Kelley, JF, „Język naturalny i komputery: sześć empirycznych kroków do napisania łatwej w użyciu aplikacji komputerowej”. Niepublikowana rozprawa doktorska, Johns Hopkins University, 1983. (Pozycja 8321592 można uzyskać z University Microfilms International; 300 North Zeeb Road; Ann Arbor; Michigan; 48106; USA.)

Praca na Uniwersytecie Kalifornijskim w San Diego:

Bobrow, D., Kaplan, R., Kay, M., Norman, D., Thompson, H. i Winograd, T. (1977). GUS, system dialogowy sterowany ramkami. Sztuczna inteligencja, 8:2 (kwiecień 1977) 155-173., 8 (2), 155-173.

Kolejne referencje i wdrożenia (próbka około 30 lat cytowań):

Schieben, A. i in. 2009, „Technika systemu teatralnego: zwinne projektowanie i testowanie zachowania i interakcji systemu, zastosowane w wysoce zautomatyzowanych pojazdach”. W Proceedings of the 1st International Conference on Automotive User Interfaces and Interactive Vehicular Applications (Essen, Niemcy, 2009). ACM Press, Nowy Jork, USA. [3]

Akers, D. 2006. Czarnoksiężnik z krainy Oz do projektowania partycypacyjnego: wynalezienie interfejsu gestów do wyboru 3D oszacowań ścieżek neuronowych. W CHI '06 Extended Abstracts on Human Factors in Computing Systems (Montréal, Quebec, Kanada, 22–27 kwietnia 2006). CHI '06. ACM Press, Nowy Jork, USA, 454-459. [4]

Höysniemi, J., Hämäläinen, P. i Turkki, L. 2004. Czarnoksiężnik z krainy Oz prototypowanie komputerowych gier akcji dla dzieci. W materiałach z konferencji 2004 na temat projektowania interakcji i dzieci: budowanie społeczności (Maryland, 1–03 czerwca 2004). IDC '04. ACM Press, Nowy Jork, USA, 27-34. [5]

Molin, L. 2004. Prototypowanie Wizard-of-Oz do kooperacyjnego projektowania interakcji graficznych interfejsów użytkownika. W materiałach z trzeciej nordyckiej konferencji poświęconej interakcji człowiek-komputer (Tampere, Finlandia, 23–27 października 2004). NordiCHI '04, cz. 82. ACM Press, Nowy Jork, USA, 425-428. [6]

Lai, J. i Yankelovich, N. 2003. Konwersacyjne interfejsy mowy. W Podręczniku interakcji człowiek-komputer: podstawy, rozwijające się technologie i nowe aplikacje, JA Jacko i A. Sears, wyd. [ wymagane wyjaśnienie ] Czynniki ludzkie i ergonomia. Lawrence Erlbaum Associates, Mahwah, New Jersey, USA, 698-713.

Gleicher, ML, Heck, RM i Wallick, MN 2002. Struktura wirtualnej wideografii. W Proceedings of the 2nd international Symposium on Smart Graphics (Hawthorne, Nowy Jork, 11–13 czerwca 2002). SMARTGRAPH '02, cz. 24. ACM Press, Nowy Jork, USA, 9-16. [7]

Klemmer, SR, Sinha, AK, Chen, J., Landay, JA, Aboobaker, N. i Wang, A. 2000. Suede: narzędzie do tworzenia prototypów Wizard of Oz dla interfejsów użytkownika mowy. W Proceedings of 13th Annual ACM Symposium on User interface Software and Technology (San Diego, Kalifornia, Stany Zjednoczone, 06-08 listopada 2000). UIST '00. ACM Press, Nowy Jork, USA, 1-10. [8]

Hewett, Thomas T. (i in.), „Programy interakcji człowiek-komputer”, ACM SIGCHI, 1992, 1996, rozdział 2. [9]

Piernot, PP, Felciano, RM, Stancel, R., Marsh, J. i Yvon, M. 1995. Projektowanie PenPal: łączenie sprzętu i oprogramowania w interfejsie użytkownika dla dzieci. W Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (Denver, Kolorado, Stany Zjednoczone, 7–11 maja 1995). IR Katz, R. Mack, L. Marks, MB Rosson i J. Nielsen, wyd. [ potrzebne wyjaśnienie ] Konferencja na temat czynników ludzkich w systemach komputerowych. ACM Press/Addison-Wesley Publishing Co., Nowy Jork, USA, 511–518. [10]

Prager, JM, Lamberti, DM, Gardner, DL i Balzac, SR 1990. POWÓD: inteligentny asystent użytkownika dla środowisk interaktywnych. System IBM J. 29, 1 (styczeń 1990), 141–164.

Dahlbäck, N. i Jönsson, A. 1989. Badania empiryczne reprezentacji dyskursu dla interfejsów języka naturalnego. W Proceedings of the Fourth Conference on European Chapter of the Association for Computational Linguistics (Manchester, Anglia, 10–12 kwietnia 1989). Europejskie Spotkanie Kapituły ACL. Association for Computational Linguistics, Morristown, New Jersey, USA, 291–298. [11]

Carroll, J. i Aaronson, A. 1988. Uczenie się przez działanie z symulowaną inteligentną pomocą. Komuna. ACM 31, 9 (sierpień 1988), 1064–1079. [12]

Gould, JD i Lewis, C. 1985. Projektowanie pod kątem użyteczności: kluczowe zasady i opinie projektantów. Komuna. ACM 28, 3 (marzec 1985), 300–311. [13]

Green, P. i Wei-Haas, L. 1985. Szybki rozwój interfejsów użytkownika: doświadczenie z metodą Wizard of OZ. W Proceedings of the Human Factors and Ergonomics Society Annual Meeting, tom 29, numer 5, 1985, s. 470 – 474 (5). [14]

Embley, DW i Kimbrell, RE 1985. Oparty na schemacie tłumacz zapytań języka naturalnego. W Proceedings of 1985 ACM Thirteenth Annual Conference on Computer Science (Nowy Orlean, Luizjana, Stany Zjednoczone). CSK '85. ACM Press, Nowy Jork, USA, 292–297. [15]

Good, MD, Whiteside, JA, Wixon, DR i Jones, SJ 1984. Tworzenie interfejsu pochodzącego od użytkownika. Komuna. ACM 27, 10 (październik 1984), 1032–1043. [16]