FORR
FORR (For the Right Reasons) to kognitywna architektura służąca do uczenia się i rozwiązywania problemów , inspirowana ideami ograniczonej racjonalności i zadowolenia Herberta A. Simona . Po raz pierwszy został opracowany na początku lat 90. na City University of New York . Był używany w grach , wyszukiwaniu ścieżek robotów, projektowaniu parków rekreacyjnych, systemach dialogów mówionych i rozwiązywaniu problemów spełniania ograniczeń NP-trudnych i jest wystarczająco ogólny dla wielu aplikacji do rozwiązywania problemów.
Tło
Ograniczona racjonalność
FORR nie posiada idealnej wiedzy o tym, jak rozwiązać problem, lecz uczy się na własnych doświadczeniach. Inteligentni agenci nie są optymalni, ale podejmują decyzje na podstawie tylko podzbioru wszystkich możliwych dobrych powodów i danych informacyjnych. Tych agentów nadal można uważać za racjonalnych. Ta idea ograniczonej racjonalności została wprowadzona przez Herberta A. Simona , który wraz z Allenem Newellem opracował wczesne podstawy badań nad architekturami kognitywnymi, a także zainspirował wczesne architektury, takie jak Soar i ACT-R .
Wiele dobrych powodów
FORR opiera się na idei, że istnieje wiele powodów lub przesłanek do wykonywania działań podczas rozwiązywania problemu. Te powody mogą być zawsze słuszne (w szachach zawsze należy wykonać ruch, który postawi przeciwnika na szach-mat) lub tylko czasami słuszne. Zawsze słuszne powody są w mniejszości. Czasami słuszne powody mogą konkurować ze sobą: na przykład w grze jednym dobrym powodem może być zbijanie pionków, a innym może być kontrolowanie jakiegoś obszaru planszy. W FORR te rywalizujące powody nazywane są doradcami.
Wielopoziomowy system Doradców jest na tyle ogólny, że można wdrożyć każdy potencjalny dobry powód, taki jak probabilistyczny , dedukcyjny lub percepcyjny , o ile daje on porady dotyczące preferencji jednego działania nad innym.
Ze względu na swoją zależność od zestawu niezależnych agentów (Doradców), FORR można uznać za architekturę koneksjonistyczną .
Architektura
Architektura FORR składa się z trzech elementów: zestawu opisów , które opisują stan problemu, wielopoziomowego zestawu doradców , z którymi konsultuje się, aby zdecydować, jakie działanie należy wykonać, oraz skryptu behawioralnego , który wysyła zapytania do doradców i wykonuje akcję, którą oni sugerować.
Doradcy
Doradcy to zbiór uzasadnień lub heurystyk służących do podejmowania decyzji. Można je uznać za pamięci proceduralnej architektury. Po każdej nowej decyzji Doradcy są pytani, aby zdecydować, którą akcję wykonać. Doradcy nigdy nie komunikują się ze sobą ani nie uczą samodzielnie: po prostu proszą o informacje o stanie problemu zapisane w formie opisowej i na podstawie tych informacji przedstawiają sugestię. Doradcy są podzieleni na trzy poziomy, które są przesłuchiwane w następującej kolejności:
- Poziom 1: ci Doradcy mają zawsze rację. Jeśli sugerują one akcję, ta akcja jest wykonywana natychmiast i zapytanie się kończy. Jeśli zabraniają jakiejś akcji, ta akcja jest usuwana z rozpatrzenia. W przeciwnym razie przejdź do następnego poziomu.
- Poziom 2: jeśli jeden z tych Doradców zostanie uruchomiony , proponuje podproblem lub uporządkowany zestaw działań, osiągając cel podrzędny w rozwiązaniu ogólnego problemu (taki jak poruszanie się wokół jednej przeszkody w labiryncie). Jeśli żaden doradca poziomu 2 nie zostanie aktywowany, przejdź do ostatniego poziomu.
- Poziom 3: to wszystko inne powody. Nie zawsze mają rację, ale konkurują ze sobą. Głosują nad działaniem i wykonywana jest sugestia, która uzyskała najwyższą liczbę głosów. Różne klasy problemów w tej samej domenie będą miały różne wagi dla tych samych Doradców, a wagi są opracowywane na podstawie doświadczenia poprzez uczenia się .
opisowe
Składnik pamięci deklaratywnej architektury, opisowe reprezentują stan problemu i są dostępne dla każdego Doradcy.
Skrypt behawioralny
Skrypt behawioralny odpytuje sekwencyjnie każdą warstwę Doradców. Jeśli Doradca poziomu 1 zasugeruje akcję, skrypt ją wykona. W przeciwnym razie, jeśli uruchomiony zostanie Doradca poziomu 2, oznacza to, że napotkano problem podrzędny. Doradca poziomu 1 gwarantuje, że w danym momencie aktywny jest tylko jeden doradca poziomu 2. Jeśli żaden Doradca poziomu 1 nie skomentuje ani żaden Doradca poziomu 2 nie zostanie uruchomiony, skrypt behawioralny poprosi o sugestie lub komentarze od wszystkich Doradców poziomu 3 i umożliwi im głosowanie. Skrypt wykonuje akcję, która uzyskała największą liczbę głosów spośród wszystkich doradców poziomu 3.
Implementacja architektury FORR
Dziedzina problemu to zestaw podobnych problemów, zwanych klasami problemów. Jeśli domeną problemową są proste gry planszowe, to kółko i krzyżyk jest klasą problemową, a jedna konkretna gra w kółko i krzyżyk jest przykładem problemu. Jeśli poruszanie się po labiryncie jest domeną problemu, to konkretny labirynt jest klasą, a jedna próba poruszania się po nim jest instancją. Po zidentyfikowaniu domeny problemowej implementacja architektury FORR dla tej domeny składa się z dwóch podstawowych etapów: znalezienia możliwych właściwych przyczyn (Doradców) i poznania ich wag dla określonej klasy.
Jak zbudować architekturę FORR
- Zdecyduj się na problematyczną domenę.
- Wykorzystaj wiedzę dziedzinową, przegląd literatury, intuicję i zdrowy rozsądek, aby wyliczyć listę możliwych przesłanek do podjęcia decyzji, która może być dobra lub zła dla różnych klas w danej dziedzinie. Tymi przesłankami są Doradcy.
- Podziel Doradców na poziomy:
- Doradcy, którzy zawsze mają rację, znajdują się na poziomie 1. Na przykład zawsze należy wykonać zwycięski ruch w grze planszowej.
- Doradcy, którzy zidentyfikują podproblem, przechodzą do Poziomu 2. Na przykład chodzenie po ścianie w labiryncie.
- Co drugi Doradca to Poziom 3.
- Zakoduj doradców. Każdy Doradca zwraca zestaw sugerowanych działań wraz z wagami dla każdej sugerowanej akcji. Wagi są początkowo ustawione na jednolitą wartość, na przykład 0,05.
- Zidentyfikuj wszystkie informacje o stanie problemu potrzebne wszystkim Doradcom. To są opisy. Zakoduj te.
- Zakoduj skrypt behawioralny, który wysyła zapytania do Doradców i wykonuje sugerowane przez nich działania.
- Poznaj wagi dla Doradców na zestawie konkretnych przypadków problemów w fazie uczenia się za pomocą algorytmu uczenia się ze wzmocnieniem .
- Przetestuj architekturę na zestawie wcześniej nie napotkanych problemów.
Wagi Learning Advisor
Doradcy są tacy sami dla wszystkich klas problemów w domenie, ale wagi mogą być różne dla każdej klasy w domenie. Ważne heurystyki dla Kółko i krzyżyk mogą nie być ważne dla innej gry planszowej. FORR uczy się wag dla swoich doradców poziomu 3 na podstawie doświadczenia. Doradcy, którzy zasugerują działanie, które zakończyło się porażką, otrzymują karę, a Doradcy, których sugestie skutkują sukcesem, mają zwiększoną wagę. Algorytmy uczenia się różnią się w zależności od implementacji.
Aplikacje
FORR był używany w grach, wyszukiwaniu ścieżek robotów, problemach spełniania ograniczeń , projektowaniu parków i systemach dialogów mówionych .
Zobacz też
- Notatki
- Epstein, SL (1994) Z właściwych powodów: architektura FORR do uczenia się w dziedzinie umiejętności
- Epstein, SL i Petrovic, S. (2008) Uczenie się wiedzy specjalistycznej z ograniczoną racjonalnością i samoświadomością
- Langley, P., Laird, JE i Rogers, S. (2009) Architektury kognitywne: problemy i wyzwania badawcze