Nauka zawodu

W sztucznej inteligencji uczenie się przez praktykę (lub uczenie się na podstawie demonstracji ) to proces uczenia się poprzez obserwację eksperta. Można to postrzegać jako formę nadzorowanego uczenia się , w której zestaw danych szkoleniowych składa się z wykonywania zadań przez nauczyciela demonstracyjnego.

Podejście funkcji mapowania

Metody mapowania próbują naśladować eksperta, tworząc bezpośrednie mapowanie ze stanów na działania lub ze stanów na wartości nagrody. Na przykład w 2002 roku naukowcy wykorzystali takie podejście do nauczenia robota AIBO podstawowych umiejętności piłkarskich.

Podejście do uczenia się ze wzmocnieniem odwrotnym

Odwrotne uczenie się ze wzmocnieniem (IRL) to proces wyprowadzania funkcji nagrody z obserwowanego zachowania. Podczas gdy zwykłe „uczenie się ze wzmocnieniem” polega na stosowaniu nagród i kar w celu nauczenia się zachowania, w IRL kierunek jest odwrotny, a robot obserwuje zachowanie człowieka, aby dowiedzieć się, jaki cel wydaje się osiągnąć tym zachowaniem. Problem IRL można zdefiniować jako:

Biorąc pod uwagę 1) pomiary zachowania agenta w czasie, w różnych okolicznościach; 2) pomiary bodźców sensorycznych do tego czynnika; 3) model środowiska fizycznego (w tym ciała agenta): Określ funkcję nagrody, którą agent optymalizuje.

Badacz IRL, Stuart J. Russell, proponuje, aby IRL można było wykorzystać do obserwacji ludzi i próby skodyfikowania ich złożonych „wartości etycznych”, w celu stworzenia „etycznych robotów”, które pewnego dnia mogą wiedzieć „nie gotować kota” bez konieczności bycia wyraźnie powiedziane. Scenariusz można modelować jako „kooperatywną grę edukacyjną z odwrotnym wzmocnieniem”, w której gracz „osoba” i gracz „robot” współpracują, aby zabezpieczyć ukryte cele osoby, mimo że cele te nie są wyraźnie znane ani osobie, ani robotowi.

W 2017 roku OpenAI i DeepMind zastosowały głębokie uczenie się do kooperacyjnego uczenia się odwrotnego wzmacniania w prostych domenach, takich jak gry Atari i proste zadania robotów, takie jak przewroty w tył. Rola człowieka ograniczała się do odpowiadania na zapytania robota, które z dwóch różnych działań jest preferowane. Naukowcy znaleźli dowody na to, że techniki te mogą być ekonomicznie skalowalne do nowoczesnych systemów.

Praktyka poprzez odwrotne uczenie się przez wzmacnianie (AIRP) została opracowana w 2004 roku przez Pietera Abbeela , profesora na wydziale EE CS w Berkeley , oraz Andrew Ng , profesora nadzwyczajnego na Wydziale Informatyki Uniwersytetu Stanforda . AIRP zajmuje się „ procesem decyzyjnym Markowa , w którym nie otrzymujemy wyraźnie funkcji nagrody, ale zamiast tego możemy obserwować eksperta demonstrującego zadanie, którego wykonania chcemy się nauczyć”. AIRP został wykorzystany do modelowania funkcji nagrody w wysoce dynamicznych scenariuszach, w których intuicyjnie nie ma oczywistej funkcji nagrody. Weźmy na przykład zadanie kierowania pojazdem, istnieje wiele różnych celów działających jednocześnie - takich jak utrzymanie bezpiecznej odległości, dobra prędkość, unikanie zbyt częstej zmiany pasa ruchu itp. To zadanie może na pierwszy rzut oka wydawać się łatwe, ale trywialna funkcja nagrody mogą nie być zbieżne z pożądaną polityką.

Jedną z dziedzin, w których AIRP był szeroko stosowany, jest sterowanie helikopterami. Podczas gdy proste trajektorie można wyprowadzić intuicyjnie, skomplikowane zadania, takie jak akrobacje pokazowe, zakończyły się sukcesem. Obejmuje to manewry akrobacyjne , takie jak przewroty w miejscu, przewroty w miejscu, pętle, huragany, a nawet lądowania z automatyczną rotacją. Ta praca została opracowana przez Pietera Abbeela, Adama Coatesa i Andrew Ng - „Autonomous Helicopter Aerobatics through Apprenticeship Learning”

Podejście modelowe systemu

Modele systemowe próbują naśladować eksperta, modelując dynamikę świata.

Zaplanuj podejście

System uczy się zasad kojarzenia warunków wstępnych i końcowych z każdą akcją. Podczas jednej z demonstracji z 1994 r. humanoid uczy się uogólnionego planu z zaledwie dwóch demonstracji powtarzalnego zadania zbierania piłek.

Przykład

Uczenie się na podstawie demonstracji jest często wyjaśniane z perspektywy, że działający system sterowania robotem jest dostępny i używa go demonstrant. I rzeczywiście, jeśli oprogramowanie działa, operator-człowiek bierze ramię robota, wykonuje nim ruch, a robot później odtworzy to działanie. Na przykład uczy ramię robota, jak postawić filiżankę pod ekspresem do kawy i nacisnąć przycisk start. W fazie powtórki robot naśladuje to zachowanie 1:1. Ale nie tak działa system wewnętrznie; to tylko to, co publiczność może zaobserwować. W rzeczywistości uczenie się na podstawie demonstracji jest znacznie bardziej złożone. Jedną z pierwszych prac na temat uczenia się przez robotów-czeladników (roboty antropomorficzne uczące się przez naśladownictwo) była praca doktorska Adriana Stoiki z 1995 roku.

W 1997 roku ekspert robotyki Stefan Schaal pracował nad ramieniem robota Sarcos . Cel był prosty: rozwiązać zadanie wahadła . Sam robot może wykonać ruch, w wyniku czego wahadło się porusza. Problem polega na tym, że nie jest jasne, jakie działania doprowadzą do jakiego ruchu. Jest to sterowania optymalnego , który można opisać za pomocą wzorów matematycznych, ale jest trudny do rozwiązania. Pomysł Schaala polegał na tym, aby nie używać rozwiązania Brute-force, ale rejestrować ruchy człowieka-demonstracji. Kąt wahadła jest rejestrowany przez trzy sekundy na osi y. Prowadzi to do diagramu, który tworzy wzór.

Trajektoria w czasie
czas (sekundy) kąt (radiany)
0 -3,0
0,5 -2,8
1.0 -4,5
1.5 -1,0

W animacji komputerowej zasada ta nazywana jest animacją splajnu . Oznacza to, że na osi x podany jest czas, np. 0,5 sekundy, 1,0 sekundy, 1,5 sekundy, natomiast na osi y podana jest zmienna. W większości przypadków jest to pozycja obiektu. W odwróconym wahadle jest to kąt.

Całe zadanie składa się z dwóch części: rejestracji kąta w czasie i odtworzenia zarejestrowanego ruchu. Etap odtwarzania jest zaskakująco prosty. Jako dane wejściowe wiemy, w którym kroku czasowym jaki kąt musi mieć wahadło. Doprowadzenie systemu do stanu nazywa się „sterowaniem śledzącym” lub sterowaniem PID . Oznacza to, że mamy trajektorię w czasie i musimy znaleźć działania kontrolne, aby odwzorować system na tę trajektorię. Inni autorzy nazywają tę zasadę „zachowaniem kierowniczym”, ponieważ celem jest doprowadzenie robota do określonej linii.

Zobacz też

  1. ^ a b c „Uczenie się poprzez uczenie się poprzez odwrotne wzmacnianie” . Pieter Abbeel , Andrew Ng, na 21. międzynarodowej konferencji na temat uczenia maszynowego (ICML). 2004.
  2. ^ a b c d e f   Argall, Brenna D.; Czernowa, Sonia; Veloso, Manuela; Browning, Brett (maj 2009). „Ankieta dotycząca uczenia się robota na podstawie demonstracji”. Robotyka i systemy autonomiczne . 57 (5): 469–483. CiteSeerX 10.1.1.145.345 . doi : 10.1016/j.robot.2008.10.024 .
  3. Bibliografia _ „Ten pionier sztucznej inteligencji ma kilka obaw” . PRZEWODOWY . Źródło 22 stycznia 2018 r .
  4. ^   Russell, Stuart (1998). „Agenci uczący się w niepewnych środowiskach”. Materiały z jedenastej dorocznej konferencji poświęconej teorii obliczeniowego uczenia się . s. 101–103. doi : 10.1145/279943.279964 . S2CID 546942 .
  5. ^ Przystanie, John C. (23 czerwca 2015). „Etyka sztucznej inteligencji: jak powstrzymać robota przed gotowaniem kota” . Strażnik . Źródło 22 stycznia 2018 r .
  6. ^ „Sztuczna inteligencja i problem króla Midasa” . Huffington Post . 12 grudnia 2016 . Źródło 22 stycznia 2018 r .
  7. ^ Hadfield-Menell, D., Russell, SJ, Abbeel, Pieter & Dragan, A. (2016). Kooperatywne uczenie się odwrotnego wzmocnienia. W Postępy w neuronowych systemach przetwarzania informacji (s. 3909-3917).
  8. ^ „Dwóch gigantów sztucznej inteligencji łączy siły, by odeprzeć apokalipsę robotów” . PRZEWODOWY . 7 lipca 2017 . Źródło 29 stycznia 2018 r .
  9. ^ Christiano, PF, Leike, J., Brown, T., Martic, M., Legg, S. i Amodei, D. (2017). Głębokie wzmacnianie uczenia się na podstawie ludzkich preferencji. W Advances in Neural Information Processing Systems (s. 4302-4310).
  10. ^ Pieter Abbeel, Adam Coates, Andrew Ng, „Autonomiczne akrobacje śmigłowców poprzez naukę zawodu”. w obj. 29, wydanie 13 International Journal of Robotics Research. 2010.
  11. ^ Stoica, Adrian (1995). Uczenie się ruchu przez uczniów robotów: rozmyte podejście neuronowe (praca doktorska). Politechnika Wiktorii. https://vuir.vu.edu.au/15323/
  12. ^     Atkeson, Christopher G. i Stefan Schaal (1997). Uczenie się zadań z pojedynczej demonstracji (PDF) . Materiały z Międzynarodowej Konferencji Robotyki i Automatyki . Tom. 2. IEEE. s. 1706–1712. CiteSeerX 10.1.1.385.3520 . doi : 10.1109/robot.1997.614389 . ISBN 978-0-7803-3612-4 . S2CID 1945873 . {{ cite book }} : CS1 maint: wiele nazwisk: lista autorów ( link )
  13. ^   Baris Akgun i Maya Cakmak oraz Karl Jiang i Andrea L. Thomaz (2012). „Uczenie się na podstawie demonstracji oparte na klatkach kluczowych” (PDF) . Międzynarodowy Dziennik Robotyki Społecznej . 4 (4): 343–355. doi : 10.1007/s12369-012-0160-0 . S2CID 10004846 .
  14. ^ Reynolds, Craig W. (1999). Zachowania sterujące dla autonomicznych postaci . Konferencja twórców gier. s. 763–782.