Symboliczna sztuczna inteligencja

W sztucznej inteligencji symboliczna sztuczna inteligencja to termin określający zbiór wszystkich metod w badaniach nad sztuczną inteligencją, które opierają się na symbolicznych (czytelnych dla człowieka) reprezentacjach problemów, logiki i wyszukiwania wysokiego poziomu . Symboliczna sztuczna inteligencja wykorzystywała narzędzia, takie jak programowanie logiczne , reguły produkcji , sieci i ramy semantyczne oraz opracowywała aplikacje, takie jak systemy oparte na wiedzy (w szczególności systemy eksperckie ), matematyka symboliczna , zautomatyzowane dowodzenie twierdzeń , ontologie , sieć semantyczna oraz zautomatyzowane systemy planowania i harmonogramowania. Paradygmat symbolicznej sztucznej inteligencji doprowadził do przełomowych pomysłów w wyszukiwaniu , symbolicznych językach programowania, agentach , systemach wieloagentowych , sieci semantycznej oraz mocnych stronach i ograniczeniach formalnej wiedzy i systemów wnioskowania .

Symboliczna sztuczna inteligencja była dominującym paradygmatem badań nad sztuczną inteligencją od połowy lat pięćdziesiątych do połowy lat dziewięćdziesiątych. Naukowcy w latach 60. i 70. byli przekonani, że podejście symboliczne ostatecznie odniesie sukces w stworzeniu maszyny ze sztuczną inteligencją ogólną i uznali to za ostateczny cel swojej dziedziny. Wczesny boom, z wczesnymi sukcesami, takimi jak Logic Theorist i Samuel 's Checker's Playing Program doprowadziło do nierealistycznych oczekiwań i obietnic, po czym nastąpiła Pierwsza Zima AI, gdy wyczerpały się fundusze. Drugi boom (1969–1986) nastąpił wraz z pojawieniem się systemów eksperckich, ich obietnicą zdobycia specjalistycznej wiedzy korporacyjnej i entuzjastycznym przyjęciem przez korporacje. Ten boom i kilka wczesnych sukcesów, np. z XCON na DEC , nastąpiło ponownie późniejsze rozczarowanie. Pojawiły się problemy z trudnościami w pozyskiwaniu wiedzy, utrzymywaniu dużych baz wiedzy i kruchością w radzeniu sobie z problemami spoza domeny. Potem nastąpił kolejny, drugi, AI Winter (1988–2011). Następnie naukowcy zajmujący się sztuczną inteligencją skupili się na rozwiązywaniu podstawowych problemów związanych z radzeniem sobie z niepewnością i zdobywaniem wiedzy. Niepewność rozwiązano metodami formalnymi, takimi jak ukryte modele Markowa , wnioskowanie bayesowskie i statystyczne uczenie relacyjne . Symboliczne uczenie maszynowe rozwiązało problem pozyskiwania wiedzy, włączając wkład Przestrzeń wersji , uczenie PAC Valianta , uczenie drzewa decyzyjnego ID3 Quinlana , uczenie się oparte na przypadkach i programowanie w logice indukcyjnej do uczenia się relacji.

Sieci neuronowe, podejście subsymboliczne, było realizowane od wczesnych dni i miało się ponownie pojawić w 2012 r. Wczesne przykłady to praca nad uczeniem się perceptronu Rosenblatta , praca z wsteczną propagacją Rumelharta, Hintona i Williamsa oraz praca w splotowych sieciach neuronowych autorstwa LeCun i in. glin. w 1989 r. Jednak sieci neuronowe nie były postrzegane jako odnoszące sukcesy aż do około 2012 r.: „Dopóki duże zbiory danych nie stały się powszechne, w społeczności Al panował ogólny konsensus, że tak zwane podejście oparte na sieciach neuronowych było beznadziejne. Systemy po prostu tak nie działały no cóż, w porównaniu z innymi metodami... Rewolucja nastąpiła w 2012 roku, kiedy szereg osób, w tym zespół naukowców współpracujący z Hintonem, opracował sposób wykorzystania mocy Procesory graficzne ogromnie zwiększą moc sieci neuronowych”. W ciągu następnych kilku lat głębokie uczenie się odniosło spektakularny sukces w obsłudze wizji, rozpoznawaniu mowy, syntezie mowy, generowaniu obrazów i tłumaczeniu maszynowym. Jednak od 2020 r., jako nieodłączne trudności z uprzedzeniami, wyjaśnianie, zrozumiałość i solidność stały się bardziej widoczne dzięki podejściu do głębokiego uczenia się; coraz większa liczba naukowców zajmujących się sztuczną inteligencją wzywa do łączenia tego, co najlepsze z podejść symbolicznych i sieci neuronowych, oraz zajęcia się obszarami, z którymi oba podejścia mają trudności, takimi jak rozumowanie zdroworozsądkowe .

Idee fundamentalne

Podejście symboliczne zostało zwięźle wyrażone w „ hipotezie fizycznych systemów symboli ” zaproponowanej przez Newella i Simona w 1976 roku:

  • „Fizyczny system symboli ma niezbędne i wystarczające środki ogólnego inteligentnego działania”.

Później praktycy stosujący podejście oparte na wiedzy przyjęli drugą maksymę:

  • „W wiedzy tkwi potęga”.

opisanie, że wysoka wydajność w określonej dziedzinie wymaga zarówno wiedzy ogólnej, jak i wysoce specyficznej dla tej dziedziny. Ed Feigenbaum i Doug Lenat nazwali to zasadą wiedzy:


(1) Zasada wiedzy: jeśli program ma dobrze wykonać złożone zadanie, musi wiedzieć dużo o świecie, w którym działa. (2) Wiarygodne rozszerzenie tej zasady, zwane hipotezą szerokości: istnieją dwie dodatkowe umiejętności niezbędne do inteligentnego zachowania w nieoczekiwanych sytuacjach: poleganie na coraz bardziej ogólnej wiedzy i analogizowanie do wiedzy szczegółowej, ale rozległej.

Wreszcie, wraz z rozwojem głębokiego uczenia się, symboliczne podejście AI zostało porównane z głębokim uczeniem się jako uzupełnieniem „… badacze sztucznej inteligencji wielokrotnie rysowali podobieństwa między badaniami Kahnemana nad ludzkim rozumowaniem a podejmowaniem decyzji - odzwierciedlenie w jego książce Thinking , Szybko i wolno – oraz tak zwane „systemy sztucznej inteligencji 1 i 2”, które w zasadzie byłyby modelowane odpowiednio przez głębokie uczenie się i rozumowanie symboliczne. jest bardziej odpowiedni do szybkiego rozpoznawania wzorców w aplikacjach percepcyjnych z zaszumionymi danymi.

Krótka historia

Poniżej znajduje się krótka historia symbolicznej sztucznej inteligencji do dnia dzisiejszego. Okresy i tytuły zostały zaczerpnięte z wykładu pamięci AAAI Roberta S. Engelmore'a Henry'ego Kautza z 2020 r. oraz dłuższego artykułu w Wikipedii na temat historii sztucznej inteligencji , z nieznacznie różniącymi się datami i tytułami w celu zwiększenia przejrzystości.

Pierwsze lato AI: irracjonalny entuzjazm, 1948–1966

Sukces wczesnych prób sztucznej inteligencji miał miejsce w trzech głównych obszarach: sztuczne sieci neuronowe, reprezentacja wiedzy i wyszukiwanie heurystyczne, przyczyniając się do wysokich oczekiwań. Ta sekcja podsumowuje powtórkę Kautza z wczesnej historii AI.

Podejścia inspirowane poznaniem lub zachowaniem ludzi lub zwierząt

Podejścia cybernetyczne podjęły próbę odtworzenia pętli sprzężenia zwrotnego między zwierzętami a ich środowiskiem. Już w 1948 roku zbudowano robotycznego żółwia z czujnikami, silnikami napędzającymi i sterującymi oraz siedmioma lampami próżniowymi do sterowania, opartymi na zaprogramowanej sieci neuronowej. Prace te można postrzegać jako wczesny prekursor późniejszych prac nad sieciami neuronowymi, uczenie się przez wzmacnianie i robotykę umiejscowioną.

Ważnym wczesnym symbolicznym programem AI był teoretyk logiki , napisany przez Allena Newella , Herberta Simona i Cliffa Shawa w latach 1955–56, ponieważ był w stanie udowodnić 38 elementarnych twierdzeń z Principia Mathematica Whiteheada i Russella . Newell, Simon i Shaw później uogólnili tę pracę, aby stworzyć niezależne od domeny narzędzie do rozwiązywania problemów, GPS (General Problem Solver). GPS rozwiązał problemy reprezentowane przez formalne operatory poprzez przeszukiwanie przestrzeni stanów przy użyciu analizy środków i celów .

W latach sześćdziesiątych podejścia symboliczne odniosły wielki sukces w symulowaniu inteligentnego zachowania w ustrukturyzowanych środowiskach, takich jak gry, matematyka symboliczna i dowodzenie twierdzeń. Badania nad sztuczną inteligencją koncentrowały się w latach 60. w trzech instytucjach: Carnegie Mellon University , Stanford , MIT i (później) University of Edinburgh . Każdy z nich wypracował własny styl badań. Wcześniejsze podejścia oparte na cybernetyce czy sztucznych sieciach neuronowych zostały porzucone lub zepchnięte na dalszy plan.

Herbert Simon i Allen Newell badali ludzkie umiejętności rozwiązywania problemów i próbowali je sformalizować, a ich praca położyła podwaliny pod dziedzinę sztucznej inteligencji, a także kognitywistyki , badań operacyjnych i nauk o zarządzaniu . Ich zespół badawczy wykorzystał wyniki psychologicznych do opracowania programów symulujących techniki stosowane przez ludzi do rozwiązywania problemów. Ta tradycja, skupiona na Carnegie Mellon University , ostatecznie osiągnęła punkt kulminacyjny w rozwoju Soar architektura w połowie lat 80.

Wyszukiwanie heurystyczne

Oprócz wysoce wyspecjalizowanych, specyficznych dla domeny rodzajów wiedzy, które zobaczymy później w systemach eksperckich, pierwsi badacze symbolicznej sztucznej inteligencji odkryli inne, bardziej ogólne zastosowanie wiedzy. Nazywano je heurystykami, praktycznymi regułami, które kierują wyszukiwaniem w obiecujących kierunkach: „W jaki sposób wyszukiwanie niewyliczeniowe może być praktyczne, gdy podstawowy problem jest wykładniczo trudny? Podejście zalecane przez Simona i Newella polega na zastosowaniu heurystyki: szybkich algorytmów, które mogą zawieść na niektórych wejściach lub wyjściach nieoptymalnych rozwiązań”. Kolejnym ważnym postępem było znalezienie sposobu zastosowania tych heurystyk, który gwarantuje znalezienie rozwiązania, jeśli takie istnieje, niezależnie od sporadycznej omylności heurystyk: Algorytm A* dostarczył ogólnych ram dla kompletnego i optymalnego wyszukiwania heurystycznego. A* jest obecnie używany jako podprogram w praktycznie każdym algorytmie sztucznej inteligencji, ale nadal nie jest magiczną kulą; jego gwarancję kompletności kupuje się kosztem wykładniczego czasu w najgorszym przypadku.

Wczesne prace nad reprezentacją wiedzy i rozumowaniem

Wczesne prace obejmowały zarówno zastosowania rozumowania formalnego z naciskiem na logikę pierwszego rzędu , jak i próby radzenia sobie ze zdroworozsądkowym rozumowaniem w mniej formalny sposób.

Modelowanie rozumowania formalnego za pomocą logiki: „porządki”

W przeciwieństwie do Simona i Newella, John McCarthy uważał, że maszyny nie muszą symulować dokładnych mechanizmów ludzkiego myślenia, ale zamiast tego mogą próbować znaleźć istotę abstrakcyjnego rozumowania i rozwiązywania problemów za pomocą logiki, niezależnie od tego, czy ludzie używają tych samych algorytmów. Jego laboratorium w Stanford ( SAIL ) koncentrowało się na wykorzystaniu logiki formalnej do rozwiązywania szerokiej gamy problemów, w tym reprezentacji wiedzy , planowania i uczenia się . Logika była również przedmiotem prac na Uniwersytecie w Edynburgu i gdzie indziej w Europie, co doprowadziło do rozwoju języka programowania Prolog i nauki programowania logicznego .

Modelowanie ukrytej zdroworozsądkowej wiedzy za pomocą ramek i skryptów: „niechlujni”

Badacze z MIT (tacy jak Marvin Minsky i Seymour Papert ) odkryli, że rozwiązywanie trudnych problemów związanych z widzeniem i przetwarzaniem języka naturalnego wymaga rozwiązań ad hoc — argumentowali, że żadna prosta i ogólna zasada (taka jak logika ) nie uchwyci wszystkich aspektów inteligentnego zachowania. Roger Schank opisał ich „antylogiczne” podejście jako „ niechlujne ” (w przeciwieństwie do „ porządnych ” paradygmatów z CMU i Stanford). Zdroworozsądkowe bazy wiedzy (takie jak Cyc Douga Lenata ) są przykładem „niechlujnej” sztucznej inteligencji, ponieważ muszą być tworzone ręcznie, jedna skomplikowana koncepcja na raz .

Pierwsza zima AI: zmiażdżone marzenia, 1967–1977

Pierwsza zima AI była szokiem:

Podczas pierwszego lata AI wiele osób uważało, że inteligencję maszyn można osiągnąć w ciągu zaledwie kilku lat. Defense Advance Research Projects Agency (DARPA) uruchomiła programy wspierające badania nad sztuczną inteligencją w celu wykorzystania sztucznej inteligencji do rozwiązywania problemów bezpieczeństwa narodowego; w szczególności automatyzacja tłumaczenia rosyjskiego na angielski na potrzeby operacji wywiadowczych i tworzenie autonomicznych czołgów na polu bitwy. Naukowcy zaczęli zdawać sobie sprawę, że osiągnięcie sztucznej inteligencji będzie znacznie trudniejsze, niż przypuszczano dekadę wcześniej, ale połączenie pychy i nieszczerości skłoniło wielu badaczy uniwersyteckich i think-tanków do zaakceptowania finansowania z obietnicą wyników, o których powinni byli wiedzieć, że mogą. nie spełnić. Do połowy lat 60. nie stworzono ani użytecznych systemów tłumaczenia języka naturalnego, ani autonomicznych czołgów, co spowodowało dramatyczny sprzeciw. Nowe kierownictwo DARPA anulowało istniejące programy finansowania sztucznej inteligencji.

...

Poza Stanami Zjednoczonymi najbardziej podatnym gruntem dla badań nad sztuczną inteligencją była Wielka Brytania. Zima sztucznej inteligencji w Wielkiej Brytanii została pobudzona nie tyle przez rozczarowanych dowódców wojskowych, ile przez rywalizujących naukowców, którzy postrzegali naukowców zajmujących się sztuczną inteligencją jako szarlatanów i drenaż funduszy na badania. Profesor matematyki stosowanej, Sir James Lighthill, otrzymał od Parlamentu zlecenie oceny stanu badań nad sztuczną inteligencją w kraju . W raporcie stwierdzono, że wszystkie problemy, nad którymi pracuje się w sztucznej inteligencji, byłyby lepiej rozwiązane przez badaczy z innych dyscyplin, takich jak matematyka stosowana. W raporcie stwierdzono również, że sukcesy sztucznej inteligencji w rozwiązywaniu problemów z zabawkami nigdy nie mogłyby zostać przeskalowane do rzeczywistych zastosowań z powodu eksplozji kombinatorycznej.

Drugie lato AI: wiedza to potęga, 1978–1987

Systemy oparte na wiedzy

W miarę jak coraz bardziej widoczne stawały się ograniczenia słabych, niezależnych od domeny metod, badacze reprezentujący wszystkie trzy tradycje zaczęli wykorzystywać wiedzę w zastosowaniach sztucznej inteligencji. Rewolucja wiedzy była napędzana przez uświadomienie sobie, że wiedza leży u podstaw wysokowydajnych, specyficznych dla danej domeny aplikacji sztucznej inteligencji.

Sukces z systemami eksperckimi

Ta „rewolucja wiedzy” doprowadziła do rozwoju i wdrożenia systemów eksperckich (wprowadzonych przez Edwarda Feigenbauma ), pierwszej formy oprogramowania AI, która odniosła sukces komercyjny.

Przykłady

Kluczowymi systemami ekspertowymi były:

  • DENDRAL , który odkrył strukturę cząsteczek organicznych na podstawie ich wzoru chemicznego i odczytów spektrometru mas.
  • MYCIN , który zdiagnozował bakteriemię – i zasugerował dalsze badania laboratoryjne, jeśli to konieczne – poprzez interpretację wyników laboratoryjnych, historii pacjenta i obserwacji lekarskich. „Dzięki około 450 regułom MYCIN był w stanie działać równie dobrze jak niektórzy eksperci i znacznie lepiej niż młodsi lekarze”.
  • INTERNIST i CADUCEUS , które zajmowały się diagnostyką chorób wewnętrznych. Internista próbował uchwycić ekspertyzę przewodniczącego wydziału chorób wewnętrznych w Szkole Medycznej Uniwersytetu w Pittsburghu, podczas gdy CADUCEUS mógł ostatecznie zdiagnozować do 1000 różnych chorób.
  • GUIDON, który pokazał, w jaki sposób baza wiedzy stworzona do rozwiązywania problemów przez ekspertów może zostać ponownie wykorzystana do nauczania.
  • XCON , aby skonfigurować komputery VAX, co było pracochłonnym procesem, który mógł zająć do 90 dni. XCON skrócił czas do około 90 minut.

DENDRAL jest uważany za pierwszy system ekspercki, który polegał na rozwiązywaniu problemów opartych na wiedzy. Zostało to opisane poniżej przez Eda Feigenbauma z wywiadu Communications of the ACM , Wywiad z Edem Feigenbaumem :

Jedną z osób na Uniwersytecie Stanforda zainteresowanych komputerowymi modelami umysłu był Joshua Lederberg , laureat Nagrody Nobla w dziedzinie genetyki z 1958 roku. Kiedy powiedziałem mu, że chcę „piaskownicę indukcyjną”, powiedział: „Mam dla ciebie właśnie taką”. Jego laboratorium zajmowało się spektrometrią masową aminokwasów. Pytanie brzmiało: jak przejść od patrzenia na widmo aminokwasu do struktury chemicznej aminokwasu? Tak rozpoczęliśmy DENDRAL : ja byłem dobry w heurystycznych metodach wyszukiwania, a on miał algorytm, który był dobry w generowaniu chemicznej przestrzeni problemowej.

Nie mieliśmy wielkiej wizji. Pracowaliśmy od dołu do góry. Naszym chemikiem był Carl Djerassi , wynalazca substancji chemicznej stojącej za pigułką antykoncepcyjną, a także jeden z najbardziej szanowanych spektrometrów mas na świecie. Carl i jego doktoranci byli światowej klasy ekspertami w dziedzinie spektrometrii mas. Zaczęliśmy dodawać ich wiedzę, wymyślając inżynierię wiedzy w miarę postępów. Eksperymenty te sprowadzały się do miareczkowania coraz większej wiedzy DENDRAL . Im częściej to robiłeś, tym mądrzejszy stawał się program. Mieliśmy bardzo dobre wyniki.

Uogólnienie brzmiało: w wiedzy tkwi siła. To był wielki pomysł. W mojej karierze jest to ogromne „Ah ha!”, a AI nie było sposobem, w jaki robiono to wcześniej. Brzmi prosto, ale jest to prawdopodobnie najpotężniejsze uogólnienie sztucznej inteligencji.

Inne wymienione powyżej systemy eksperckie pojawiły się po DENDRAL . MYCIN stanowi przykład klasycznej architektury systemu eksperckiego obejmującej bazę wiedzy reguł połączoną z symbolicznym mechanizmem wnioskowania, w tym wykorzystanie czynników pewności do obsługi niepewności. GUIDON pokazuje, w jaki sposób jawna baza wiedzy może zostać ponownie wykorzystana do drugiej aplikacji, korepetycji, i jest przykładem inteligentnego systemu korepetycji , szczególnego rodzaju aplikacji opartej na wiedzy. Clancey pokazał, że samo użycie MYCIN nie wystarczy zasady nauczania, ale musiał także dodać zasady zarządzania dialogami i modelowania uczniów. XCON jest znaczący ze względu na miliony dolarów, które zaoszczędził DEC , co zapoczątkowało boom na systemy eksperckie, w którym większość dużych korporacji w USA miała grupy systemów eksperckich, których celem było przechwytywanie wiedzy korporacyjnej, zachowanie jej i automatyzacja:

Do 1988 roku grupa sztucznej inteligencji DEC miała wdrożonych 40 systemów eksperckich, a kolejne są w drodze. DuPont miał 100 w użyciu i 500 w fazie rozwoju. Niemal każda duża korporacja w USA miała swoją własną grupę Al i albo używała, albo badała systemy eksperckie.

Szachowa wiedza ekspercka została zakodowana w Deep Blue . W 1996 roku dzięki temu firma IBM Deep Blue , z pomocą symbolicznej sztucznej inteligencji, wygrała partię szachów z ówczesnym mistrzem świata, Garrym Kasparowem .

Architektura systemów opartych na wiedzy i eksperckich

Kluczowym elementem architektury systemu dla wszystkich systemów ekspertowych jest baza wiedzy, w której przechowywane są fakty i reguły rozwiązywania problemów. Najprostszym podejściem do bazy wiedzy systemu ekspertowego jest po prostu zbiór lub sieć reguł produkcyjnych . Reguły produkcji łączą symbole w relacji podobnej do instrukcji If-Then. System ekspercki przetwarza reguły, aby dokonać dedukcji i określić, jakich dodatkowych informacji potrzebuje, tj. jakie pytania zadać, używając symboli czytelnych dla człowieka. Na przykład OPS5 , CLIPS i ich następcy Jess i Drools działać w ten sposób.

Systemy eksperckie mogą działać w łańcuchu do przodu – od dowodów do wniosków – lub w łańcuchu wstecznym – od celów do potrzebnych danych i warunków wstępnych. Bardziej zaawansowane systemy oparte na wiedzy , takie jak Soar , mogą również przeprowadzać wnioskowanie na poziomie meta, czyli rozumowanie na temat własnego rozumowania w zakresie decydowania o sposobie rozwiązywania problemów i monitorowania powodzenia strategii rozwiązywania problemów.

Systemy tablicowe to drugi rodzaj architektury systemu opartej na wiedzy lub eksperckiej . Modelują społeczność ekspertów, którzy stopniowo przyczyniają się, tam gdzie to możliwe, do rozwiązania problemu. Problem jest reprezentowany na wielu poziomach abstrakcji lub alternatywnych widoków. Eksperci (źródła wiedzy) zgłaszają się na ochotnika, gdy uznają, że mogą wnieść swój wkład. Potencjalne działania mające na celu rozwiązanie problemu są przedstawione w programie, który jest aktualizowany wraz ze zmianami sytuacji problemowej. Kontroler decyduje, jak użyteczny jest każdy wkład i kto powinien wykonać następne działanie w celu rozwiązania problemu. Jednym z przykładów jest architektura tablicy BB1, która została pierwotnie zainspirowana badaniami nad tym, jak ludzie planują wykonać wiele zadań podczas podróży. Innowacją BB1 było zastosowanie tego samego modelu tablicy do rozwiązywania własnego problemu sterowania, tj. jego kontroler przeprowadzał rozumowanie metapoziomowe ze źródłami wiedzy, które monitorowały, jak dobrze przebiega plan lub rozwiązywanie problemu, i mógł przełączać się z jednej strategii do innego, gdy warunki – takie jak cele lub czasy – uległy zmianie. BB1 zastosowano w wielu dziedzinach: planowaniu placu budowy, inteligentnych systemach nauczania i monitorowaniu pacjentów w czasie rzeczywistym.

Druga zima AI, 1988–1993

W szczytowym okresie boomu na sztuczną inteligencję firmy takie jak Symbolics , LMI i Texas Instruments sprzedawały maszyny LISP specjalnie ukierunkowane na przyspieszenie rozwoju aplikacji i badań nad sztuczną inteligencją. Ponadto kilka firm zajmujących się sztuczną inteligencją, takich jak Teknowledge i Inference Corporation , sprzedawało korporacjom skorupy systemów eksperckich, szkolenia i doradztwo.

Niestety, boom AI nie trwał długo, a Kautz najlepiej opisuje drugą zimę AI, która nastąpiła:

Można podać wiele powodów nadejścia drugiej zimy AI. Firmy sprzętowe upadły, gdy na rynek weszły znacznie bardziej ekonomiczne, ogólne stacje robocze Unix firmy Sun wraz z dobrymi kompilatorami dla LISP i Prolog. Wiele komercyjnych wdrożeń systemów eksperckich zostało przerwanych, gdy okazały się one zbyt kosztowne w utrzymaniu. Medyczne systemy eksperckie nigdy się nie przyjęły z kilku powodów: trudność w ich aktualizowaniu; wyzwanie dla lekarzy, aby nauczyć się, jak korzystać z oszałamiającej różnorodności różnych systemów eksperckich dla różnych schorzeń; a co być może najważniejsze, niechęć lekarzy do ufania komputerowej diagnozie zamiast instynktowi, nawet w określonych dziedzinach, w których systemy eksperckie mogą przewyższyć przeciętnego lekarza. Pieniądze z kapitału podwyższonego ryzyka opuściły sztuczną inteligencję praktycznie z dnia na dzień. Światowa konferencja AI IJCAI była gospodarzem ogromnych i wystawnych targów oraz tysięcy uczestników spoza środowiska akademickiego w 1987 roku w Vancouver; główna konferencja AI w następnym roku, AAAI 1988 w St. Paul, była małą i ściśle akademicką sprawą.

Dodanie bardziej rygorystycznych podstaw, 1993–2011

Niepewne rozumowanie

Wypróbowano zarówno podejścia statystyczne, jak i rozszerzenia logiki.

Jedno podejście statystyczne, ukryte modele Markowa , zostało już spopularyzowane w latach 80. XX wieku w pracy z rozpoznawaniem mowy. Następnie, w 1988 roku, Judea Pearl spopularyzował wykorzystanie sieci Bayesa jako solidnego, ale skutecznego sposobu radzenia sobie z niepewnym rozumowaniem, publikując książkę Rozumowanie probabilistyczne w systemach inteligentnych: sieci wiarygodnego wnioskowania. i podejście bayesowskie były z powodzeniem stosowane w systemach ekspertowych. Jeszcze później, w latach 90., statystyczne uczenie się relacyjne , podejście, które łączy prawdopodobieństwo z formułami logicznymi, pozwoliło na połączenie prawdopodobieństwa z logiką pierwszego rzędu, np. z sieciami logicznymi Markowa lub probabilistyczną logiką miękką .

Wypróbowano również inne, nieprobabilistyczne rozszerzenia logiki pierwszego rzędu do obsługi. Na przykład rozumowanie niemonotoniczne można zastosować w systemach utrzymywania prawdy . System utrzymywania prawdy śledził założenia i uzasadnienia wszystkich wniosków. Pozwalała ona na wycofanie wnioskowania w przypadku stwierdzenia błędności założeń lub wyprowadzenia sprzeczności. Wyjaśnienia można przedstawić dla wnioskowania, wyjaśniając, które reguły zostały zastosowane aby go stworzyć, a następnie przejść przez leżące u jego podstaw wnioski i reguły aż do pierwotnych założeń. Lofti Zadeh wprowadził inny rodzaj rozszerzenia, aby poradzić sobie z reprezentacją niejasności. Na przykład przy podejmowaniu decyzji, jak „ciężki” lub „wysoki” jest mężczyzna, często nie ma jasnej odpowiedzi „tak” lub „nie”, a predykat określający ciężki lub wysoki zwracałby zamiast tego wartości od 0 do 1. Te wartości reprezentowane w jakim stopniu predykaty były prawdziwe. Jego logika rozmyta zapewniła ponadto środki do propagowania kombinacji tych wartości za pomocą formuł logicznych.

Nauczanie maszynowe

Zbadano podejście do symbolicznego uczenia maszynowego, aby rozwiązać problem wąskiego gardła w pozyskiwaniu wiedzy . Jednym z najwcześniejszych jest Meta-DENDRAL . W projekcie Meta-DENDRAL wykorzystano technikę generowania i testowania, aby wygenerować wiarygodne hipotezy dotyczące reguł w celu przetestowania widm. Znajomość dziedzin i zadań zmniejszyła liczbę testowanych kandydatów do rozsądnych rozmiarów. Feigenbaum opisał Meta-DENDRAL jako

... kulminacja mojego marzenia z początku do połowy lat 60., związanego z tworzeniem teorii. Koncepcja polegała na tym, że masz narzędzie do rozwiązywania problemów, takie jak DENDRAL , które pobiera pewne dane wejściowe i generuje dane wyjściowe. Czyniąc to, wykorzystał warstwy wiedzy do kierowania i przycinania wyszukiwania. Ta wiedza się tam dostała, ponieważ przeprowadzaliśmy wywiady z ludźmi. Ale skąd ludzie zdobyli wiedzę? Patrząc na tysiące widm. Chcieliśmy więc programu, który przyjrzałby się tysiącom widm i wywnioskował wiedzę na temat spektrometrii mas, którą DENDRAL mógłby wykorzystać do rozwiązania indywidualnych problemów z tworzeniem hipotez. Zrobiliśmy to. Byliśmy nawet w stanie opublikować nową wiedzę na temat spektrometrii mas w Journal of the American Chemical Society , podając uznanie jedynie w przypisie, że program Meta-DENDRAL faktycznie to zrobił. Udało nam się zrobić coś, o czym marzyliśmy: stworzyć program komputerowy, który dostarczył nowej, nadającej się do publikacji części naukowej.

W przeciwieństwie do opartego na wiedzy podejścia Meta-DENDRAL, Ross Quinlan wynalazł niezależne od domeny podejście do klasyfikacji statystycznej, uczenie się drzewa decyzyjnego , zaczynając najpierw od ID3 , a później rozszerzając jego możliwości do C4.5 . Tworzone drzewa decyzyjne to szklane pudełka , interpretowalne klasyfikatory z regułami klasyfikacji możliwymi do interpretacji przez człowieka.

Poczyniono również postępy w zrozumieniu teorii uczenia maszynowego. Tom Mitchell wprowadził uczenie się w przestrzeni wersji , które opisuje uczenie się jako przeszukiwanie przestrzeni hipotez, z górnymi, bardziej ogólnymi i dolnymi, bardziej szczegółowymi granicami obejmującymi wszystkie realne hipotezy zgodne z dotychczasowymi przykładami. Bardziej formalnie, Valiant wprowadził prawdopodobnie uczenie się w przybliżeniu poprawne (PAC Learning), ramy matematycznej analizy uczenia maszynowego.

Symboliczne uczenie maszynowe obejmowało więcej niż uczenie się na przykładach. Np. John Anderson dostarczył kognitywny model ludzkiego uczenia się, w którym praktyka umiejętności skutkuje zestawieniem reguł z formatu deklaratywnego do formatu proceduralnego z jego kognitywną architekturą ACT-R . Na przykład uczeń może nauczyć się stosować „Kąty dodatkowe to dwa kąty, których suma miar wynosi 180 stopni” jako kilka różnych zasad proceduralnych. Np. jedna reguła może mówić, że jeśli X i Y są komplementarne i znasz X, to Y będzie równe 180 - X. Nazwał swoje podejście „kompilacją wiedzy”. ACT-R został z powodzeniem wykorzystany do modelowania aspektów ludzkiego poznania, takich jak uczenie się i zapamiętywanie. ACT-R jest również używany w inteligentnych systemach korepetycji , zwanych korepetytorami kognitywnymi , do skutecznego nauczania geometrii, programowania komputerowego i algebry dzieci w wieku szkolnym.

Programowanie w logice indukcyjnej było kolejnym podejściem do uczenia się, które umożliwiało syntezę programów logicznych na podstawie przykładów wejścia-wyjścia. Np. MIS (Model Inference System) Ehuda Shapiro może syntetyzować programy Prologu na podstawie przykładów. John R. Koza zastosował algorytmy genetyczne do syntezy programów w celu stworzenia programowania genetycznego , którego użył do syntezy programów LISP. Wreszcie Manna i Waldinger przedstawili bardziej ogólne podejście do syntezy programów który syntetyzuje program funkcjonalny w trakcie udowadniania poprawności jego specyfikacji.

Jako alternatywę dla logiki Roger Schank wprowadził rozumowanie oparte na przypadkach (CBR). Podejście CBR opisane w jego książce Pamięć dynamiczna koncentruje się przede wszystkim na zapamiętywaniu kluczowych przypadków rozwiązywania problemów do wykorzystania w przyszłości i uogólnianiu ich tam, gdzie to konieczne. W obliczu nowego problemu CBR wyszukuje najbardziej podobny poprzedni przypadek i dostosowuje go do specyfiki aktualnego problemu. Inna alternatywa dla logiki, algorytmy genetyczne i programowanie genetyczne opierają się na ewolucyjnym modelu uczenia się, w którym zestawy reguł są kodowane w populacjach, reguły rządzą zachowaniem jednostek, a wybór najlepiej przystosowanych usuwa zestawy nieodpowiednich reguł przez wiele pokoleń .

Symboliczne uczenie maszynowe zastosowano do uczenia się pojęć, reguł, heurystyki i rozwiązywania problemów. Podejścia inne niż powyższe obejmują:

  1. Uczenie się na podstawie instrukcji lub porad — tj. przyjmowanie instrukcji od ludzi udających porady i ustalanie, jak zastosować je w konkretnych sytuacjach. Na przykład w grze w kier, ucząc się dokładnie, jak rozgrywać rozdanie, aby „unikać zbierania punktów”.
  2. Uczenie się na podstawie wzorców — poprawa wyników poprzez przyjmowanie opinii ekspertów merytorycznych (MŚP) podczas szkolenia. Gdy rozwiązanie problemu nie powiedzie się, poproszenie eksperta o nauczenie się nowego przykładu rozwiązania problemu lub nauczenie się nowego wyjaśnienia, dlaczego dokładnie jeden przykład jest bardziej odpowiedni niż inny. Na przykład program Protos nauczył się diagnozować przypadki szumów usznych poprzez interakcję z audiologiem.
  3. Uczenie się przez analogię — konstruowanie rozwiązań problemów w oparciu o podobne problemy z przeszłości, a następnie modyfikowanie ich rozwiązań, aby pasowały do ​​nowej sytuacji lub dziedziny.
  4. Systemy uczenia się uczniów — uczenie się nowych rozwiązań problemów poprzez obserwację rozwiązywania problemów przez ludzi. Wiedza dziedzinowa wyjaśnia, dlaczego nowatorskie rozwiązania są poprawne i jak można je uogólnić. LEAP nauczył się projektować obwody VLSI, obserwując ludzkich projektantów.
  5. Uczenie się przez odkrywanie — czyli tworzenie zadań do przeprowadzania eksperymentów, a następnie uczenie się na podstawie wyników. Na przykład Eurisko Douga Lenata nauczyło się heurystyki, aby przez dwa lata z rzędu pokonać ludzkich graczy w grze fabularnej Traveler .
  6. Uczenie się makrooperatorów — czyli poszukiwanie użytecznych makrooperatorów, których można się nauczyć z sekwencji podstawowych działań związanych z rozwiązywaniem problemów. Dobrzy makrooperatorzy upraszczają rozwiązywanie problemów, umożliwiając rozwiązywanie problemów na bardziej abstrakcyjnym poziomie.

Głębokie uczenie się i neuro-symboliczna sztuczna inteligencja 2011–teraz

Neuro-symboliczna sztuczna inteligencja: integracja podejścia neuronowego i symbolicznego

Neuro-symboliczna sztuczna inteligencja próbuje integrować architektury neuronowe i symboliczne w sposób uwzględniający mocne i słabe strony każdej z nich w komplementarny sposób, aby wspierać solidną sztuczną inteligencję zdolną do rozumowania, uczenia się i modelowania poznawczego. Jak argumentował Valiant i wielu innych, efektywna konstrukcja bogatych obliczeniowych modeli poznawczych wymaga połączenia solidnego rozumowania symbolicznego i wydajnych (maszynowych) modeli uczenia się. Gary'ego Marcusa podobnie argumentuje, że: „Nie możemy konstruować bogatych modeli kognitywnych w adekwatny, zautomatyzowany sposób bez triumwiratu architektury hybrydowej, bogatej wcześniejszej wiedzy i wyrafinowanych technik rozumowania”. podejście oparte na sztucznej inteligencji, musimy mieć w naszym zestawie narzędzi maszynerię do manipulacji symbolami. Zbyt wiele użytecznej wiedzy jest abstrakcyjne, aby obejść się bez narzędzi reprezentujących i manipulujących abstrakcją, a jak dotąd jedyna znana nam maszyna, która może manipulować takimi wiedza abstrakcyjna niezawodnie jest aparatem manipulacji symbolami”.

Henry Kautz , Francesca Rossi i Bart Selman również opowiadali się za syntezą. Ich argumenty opierają się na potrzebie zajęcia się dwoma rodzajami myślenia omówionymi w książce Daniela Kahnemana , Thinking, Fast and Slow . Kahneman opisuje ludzkie myślenie jako składające się z dwóch elementów, Systemu 1 i Systemu 2 . System 1 jest szybki, automatyczny, intuicyjny i nieświadomy. System 2 jest wolniejszy, krok po kroku i jawny. System 1 służy do rozpoznawania wzorców, podczas gdy System 2 znacznie lepiej nadaje się do planowania, dedukcji i myślenia deliberatywnego. Z tego punktu widzenia głębokie uczenie się najlepiej modeluje pierwszy rodzaj myślenia, podczas gdy rozumowanie symboliczne najlepiej modeluje drugi rodzaj myślenia i oba są potrzebne.

Garcez opisuje badania w tej dziedzinie jako trwające od co najmniej ostatnich dwudziestu lat, począwszy od jego książki z 2002 roku o neurosymbolicznych systemach uczenia się. Seria warsztatów na temat rozumowania neurosymbolicznego odbywa się co roku od 2005 roku, patrz http://www.neural-symbolic.org/ , aby uzyskać szczegółowe informacje.

W swoim artykule z 2015 r., Neural-Symbolic Learning and Reasoning: Contributions and Challenges, Garcez et al. twierdzić, że:

Integracja symbolicznego i koneksjonistycznego paradygmatu sztucznej inteligencji była prowadzona przez stosunkowo niewielką społeczność badawczą w ciągu ostatnich dwóch dekad i przyniosła kilka znaczących wyników. W ciągu ostatniej dekady wykazano, że neuronowe systemy symboliczne są w stanie przezwyciężyć tak zwaną fiksację zdaniową sieci neuronowych, jak ujął to McCarthy (1988) w odpowiedzi na Smolensky'ego (1988); patrz także (Hinton, 1990). Wykazano, że sieci neuronowe mogą reprezentować logikę modalną i temporalną (d'Avila Garcez i Lamb, 2006) oraz fragmenty logiki pierwszego rzędu (Bader, Hitzler, Hölldobler, 2008; d'Avila Garcez, Lamb, Gabbay, 2009). Ponadto systemy neuronowo-symboliczne zostały zastosowane do wielu problemów w obszarach bioinformatyki, inżynierii sterowania, weryfikacji i adaptacji oprogramowania, inteligencji wizualnej, uczenia się ontologii i gier komputerowych.

Podejścia do integracji są różne. Taksonomia neuro-symbolicznych architektur Henry'ego Kautza wraz z kilkoma przykładami wygląda następująco:

  • Symboliczny Neural symboliczny — to obecne podejście wielu modeli neuronowych w przetwarzaniu języka naturalnego, w którym słowa lub tokeny podsłów są zarówno ostatecznym wejściem, jak i wyjściem dużych modeli językowych. Przykłady obejmują BERT , RoBERTa i GPT-3 .
  • Symbolic[Neural] — przykładem jest AlphaGo , gdzie techniki symboliczne są używane do wywoływania technik neuronowych. W tym przypadku podejściem symbolicznym jest przeszukiwanie drzewa Monte Carlo , a techniki neuronowe uczą się, jak oceniać pozycje w grze.
  • Neural|Symbolic — wykorzystuje architekturę neuronową do interpretacji danych percepcyjnych jako symboli i relacji, które są następnie rozumowane symbolicznie.
  • Neural:Symbolic → Neural — opiera się na rozumowaniu symbolicznym w celu generowania lub oznaczania danych treningowych, które są następnie uczone przez model głębokiego uczenia się, np. w celu wytrenowania modelu neuronowego do obliczeń symbolicznych za pomocą symbolicznego systemu matematycznego podobnego do Macsyma do tworzenia lub oznaczania przykładów .
  • Neural_{Symbolic} — wykorzystuje sieć neuronową generowaną na podstawie reguł symbolicznych. Przykładem jest Neural Theorem Prover, który konstruuje sieć neuronową z AND-OR wygenerowanego na podstawie reguł i terminów bazy wiedzy. Do tej kategorii należą również logiczne sieci tensorowe.
  • Neural[Symbolic] — umożliwia modelowi neuronowemu bezpośrednie wywołanie silnika wnioskowania symbolicznego, np. w celu wykonania akcji lub oceny stanu.

Pozostaje wiele kluczowych pytań badawczych, takich jak:

  • Jaki jest najlepszy sposób integracji architektury neuronowej i symbolicznej?
  • W jaki sposób struktury symboliczne powinny być reprezentowane w sieciach neuronowych i wydobywane z nich?
  • W jaki sposób należy uczyć się i uzasadniać zdroworozsądkową wiedzę?
  • Jak poradzić sobie z abstrakcyjną wiedzą, którą trudno logicznie zakodować?

Techniki i wkłady

Ta sekcja zawiera przegląd technik i wkładów w ogólnym kontekście prowadzącym do wielu innych, bardziej szczegółowych artykułów w Wikipedii. Sekcje dotyczące uczenia maszynowego i rozumowania niepewnego są omówione wcześniej w sekcji historii .

Języki programowania SI

Kluczowym językiem programowania sztucznej inteligencji w Stanach Zjednoczonych podczas ostatniego symbolicznego okresu boomu sztucznej inteligencji był LISP . LISP jest drugim najstarszym językiem programowania po FORTRANIE i został stworzony w 1958 roku przez Johna McCarthy'ego . LISP dostarczył pierwszą pętlę read-eval-print wspierającą szybkie tworzenie programów. Skompilowane funkcje można dowolnie mieszać z funkcjami interpretowanymi. Zapewniono również śledzenie programu, kroki i punkty przerwania, a także możliwość zmiany wartości lub funkcji i kontynuacji od punktów przerwania lub błędów. Miało to pierwsze kompilator samoobsługowy , co oznacza, że ​​sam kompilator został pierwotnie napisany w LISP-ie , a następnie działał interpretacyjnie w celu skompilowania kodu kompilatora.

Inne kluczowe innowacje zapoczątkowane przez LISP, które rozprzestrzeniły się na inne języki programowania, obejmują:

Programy same w sobie były strukturami danych, na których mogły działać inne programy, umożliwiając łatwe definiowanie języków wyższego poziomu.

W przeciwieństwie do Stanów Zjednoczonych, w Europie kluczowym językiem programowania sztucznej inteligencji w tym samym okresie był Prolog . Prolog zapewniał wbudowany magazyn faktów i klauzul, które można było odpytywać za pomocą pętli read-eval-print . Sklep może działać jako baza wiedzy, a klauzule mogą działać jako reguły lub ograniczona forma logiki. Jako podzbiór logiki pierwszego rzędu Prolog był oparty na klauzulach Horna z założeniem o zamkniętym świecie — wszelkie nieznane fakty uznano za fałszywe — oraz założeniem o unikalnej nazwie dla terminów pierwotnych — np. uznano, że identyfikator barack_obama odnosi się do dokładnie jednego obiektu. Backtracking i unifikacja są wbudowane w Prolog.

Alain Colmerauer i Philippe Roussel są uznawani za wynalazców Prologu . Prolog to forma programowania w logice , wynaleziona przez Roberta Kowalskiego . Wpływ na jego historię miał również PLANNER Carla Hewitta , asercyjna baza danych z wywoływaniem metod ukierunkowanym na wzorce . Aby uzyskać więcej informacji, zobacz sekcję o pochodzeniu Prologu w artykule PLANNER .

Prolog jest również rodzajem programowania deklaratywnego . Klauzule logiczne opisujące programy są bezpośrednio interpretowane w celu uruchomienia określonych programów. Nie jest wymagana żadna wyraźna seria działań, jak ma to miejsce w przypadku imperatywnych języków programowania.

Japonia broniła Prologu w swoim projekcie piątej generacji , który miał na celu zbudowanie specjalnego sprzętu o wysokiej wydajności. Podobnie, maszyny LISP zostały zbudowane do obsługi LISP- a, ale gdy drugi rozkwit sztucznej inteligencji okazał się załamany, firmy te nie mogły konkurować z nowymi stacjami roboczymi, które teraz mogły obsługiwać LISP lub Prolog natywnie z porównywalnymi prędkościami. Zobacz sekcję historii , aby uzyskać więcej szczegółów.

Smalltalk był kolejnym wpływowym językiem programowania AI. Na przykład wprowadził metaklasy i wraz z Flavours i CommonLoops wpłynął na Common Lisp Object System lub ( CLOS ), który jest teraz częścią Common Lisp , obecnego standardowego dialektu Lispa. CLOS to zorientowany obiektowo system oparty na Lispie, który umożliwia wielokrotne dziedziczenie , oprócz przyrostowych rozszerzeń zarówno klas, jak i metaklas , zapewniając w ten sposób protokół metaobiektu .

Aby zapoznać się z innymi językami programowania sztucznej inteligencji, zobacz tę listę języków programowania sztucznej inteligencji . Obecnie Python , wieloparadygmatyczny język programowania , jest najpopularniejszym językiem programowania, częściowo ze względu na obszerną bibliotekę pakietów, która obsługuje analizę danych , przetwarzanie języka naturalnego i głębokie uczenie się . Python zawiera pętlę read-eval-print , elementy funkcyjne, takie jak funkcje wyższego rzędu oraz programowanie obiektowe który zawiera metaklasy .

Szukaj

Wyszukiwanie pojawia się w wielu rodzajach rozwiązywania problemów, w tym w planowaniu , spełnianiu ograniczeń i graniu w gry, takie jak warcaby , szachy i go . Najbardziej znane algorytmy przeszukiwania drzewa przeszukiwania AI to przeszukiwanie wszerz , przeszukiwanie w głąb , A* i przeszukiwanie Monte Carlo . Kluczowe algorytmy wyszukiwania spełnialności boolowskiej to WalkSAT , uczenie się klauzul oparte na konflikcie i algorytm DPLL . W przypadku wyszukiwania kontradyktoryjnego podczas grania w gry przycinanie alfa-beta , gałąź i granica oraz minimaks były wczesnymi wkładami.

Reprezentacja wiedzy i rozumowanie

Zbadano wiele różnych podejść do reprezentowania wiedzy, a następnie rozumowania za pomocą tych reprezentacji. Poniżej znajduje się krótki przegląd podejść do reprezentacji wiedzy i automatycznego wnioskowania.

Reprezentacja wiedzy

Sieci semantyczne , grafy pojęciowe , ramy i logika to wszystkie podejścia do modelowania wiedzy, takiej jak wiedza dziedzinowa, wiedza dotycząca rozwiązywania problemów i semantyczne znaczenie języka. Ontologie modelują kluczowe koncepcje i ich relacje w domenie. Przykładowe ontologie to YAGO , WordNet i DOLCE . DOLCE jest przykładem wyższej ontologii , której można użyć dla dowolnej domeny, podczas gdy WordNet jest zasobem leksykalnym, który może być również postrzegany jako ontologia . YAGO włącza WordNet jako część swojej ontologii, aby dopasować fakty wyodrębnione z Wikipedii z synsetami WordNet . Ontologia choroby jest przykładem obecnie używanej ontologii medycznej.

Logika opisu to logika automatycznej klasyfikacji ontologii i wykrywania niespójnych danych klasyfikacyjnych. OWL jest językiem używanym do reprezentacji ontologii z logiką opisu . Protégé to edytor ontologii, który może czytać ontologie OWL , a następnie sprawdzać zgodność z klasyfikatorami dedukcyjnymi , takimi jak HermiT.

Logika pierwszego rzędu jest bardziej ogólna niż logika opisu . Omówione poniżej zautomatyzowane dowody twierdzeń mogą dowodzić twierdzeń w logice pierwszego rzędu. klauzuli Horna jest bardziej ograniczona niż logika pierwszego rzędu i jest używana w językach programowania logiki, takich jak Prolog . Rozszerzenia logiki pierwszego rzędu obejmują logikę temporalną do obsługi czasu; logika epistemiczna , rozumowanie na temat wiedzy agenta; logika modalna , aby poradzić sobie z możliwością i koniecznością; i logiki probabilistyczne zajmować się logiką i prawdopodobieństwem razem.

Automatyczne dowodzenie twierdzeń

Przykładami zautomatyzowanych dowodzeń twierdzeń dla logiki pierwszego rzędu są:

Prover9 może być używany w połączeniu z kontrolerem modeli Mace4 . ACL2 to dowód twierdzeń, który może obsługiwać dowody przez indukcję i jest potomkiem programu Boyer-Moore Theorem Prover, znanego również jako Nqthm .

Rozumowanie w systemach opartych na wiedzy

Systemy oparte na wiedzy mają jawną bazę wiedzy , zwykle dotyczącą reguł, w celu zwiększenia możliwości ponownego wykorzystania w różnych domenach poprzez oddzielenie kodu proceduralnego i wiedzy o dziedzinie. Oddzielny silnik wnioskowania przetwarza reguły i dodaje, usuwa lub modyfikuje magazyn wiedzy.

z łańcuchem do przodu są najpowszechniejsze i można je zobaczyć w CLIPS i OPS5 . Łańcuch wsteczny występuje w Prologu , gdzie używana jest bardziej ograniczona reprezentacja logiczna, Klauzule Horna . Dopasowywanie wzorców, w szczególności unifikacja , jest używane w Prologu.

Bardziej elastyczny rodzaj rozwiązywania problemów ma miejsce, gdy zamiast po prostu wybrać jedno z dostępnych działań, pojawia się rozumowanie, co dalej robić. Ten rodzaj rozumowania na metapoziomie jest używany w architekturze tablicy Soar i BB1.

Architektury kognitywne, takie jak ACT-R, mogą mieć dodatkowe możliwości, takie jak możliwość kompilowania często używanej wiedzy w fragmenty wyższego poziomu .

Zdroworozsądkowe rozumowanie

Marvin Minsky jako pierwszy zaproponował ramy jako sposób interpretacji typowych sytuacji wizualnych, takich jak biuro, a Roger Schank rozszerzył ten pomysł na scenariusze typowych czynności, takich jak spożywanie posiłków. Cyc próbował uchwycić użyteczną wiedzę zdroworozsądkową i ma „mikroteorie” do obsługi określonych rodzajów rozumowania specyficznego dla domeny.

Symulacje jakościowe, takie jak QSIM Benjamina Kuipersa , przybliżają ludzkie rozumowanie dotyczące naiwnej fizyki, na przykład tego, co dzieje się, gdy podgrzewamy płyn w garnku na kuchence. Spodziewamy się, że będzie się nagrzewać i prawdopodobnie kipi, chociaż możemy nie znać jego temperatury, temperatury wrzenia ani innych szczegółów, takich jak ciśnienie atmosferyczne.

Podobnie algebra przedziałów czasowych Allena jest uproszczeniem rozumowania o czasie, a rachunek połączeń regionów jest uproszczeniem rozumowania o relacjach przestrzennych. Oba można rozwiązać za pomocą solwerów z ograniczeniami .

Ograniczenia i rozumowanie oparte na ograniczeniach

Rozwiązujące ograniczenia wykonują bardziej ograniczony rodzaj wnioskowania niż logika pierwszego rzędu. Mogą uprościć zestawy ograniczeń czasoprzestrzennych, takich jak RCC lub Temporal Algebra , wraz z rozwiązywaniem innych rodzajów zagadek, takich jak Wordle , Sudoku , problemy kryptarytmiczne i tak dalej. Programowanie w logice z ograniczeniami może być wykorzystywane do rozwiązywania problemów z planowaniem, na przykład z regułami obsługi ograniczeń (CHR).

Zautomatyzowane planowanie

General Problem Solver ( GPS ) rzucił planowanie na rozwiązywanie problemów, wykorzystując analizę środków i celów do tworzenia planów. Zespół STRIPS przyjął inne podejście, traktując planowanie jako udowadnianie twierdzeń. Graphplan przyjmuje podejście do planowania z najmniejszym zaangażowaniem, zamiast sekwencyjnego wybierania działań ze stanu początkowego, pracy do przodu lub stanu celu, jeśli pracuje się wstecz. Satplan jest podejściem do planowania, w którym problem planowania jest redukowany do logicznego problemu spełnialności .

Przetwarzanie języka naturalnego

Przetwarzanie języka naturalnego koncentruje się na traktowaniu języka jako danych do wykonywania zadań, takich jak identyfikacja tematów bez konieczności rozumienia zamierzonego znaczenia. Natomiast rozumienie języka naturalnego konstruuje reprezentację znaczenia i wykorzystuje ją do dalszego przetwarzania, takiego jak odpowiadanie na pytania.

Analiza składniowa , tokenizacja , korekta pisowni , oznaczanie części mowy , dzielenie fraz rzeczowników i czasowników to wszystkie aspekty przetwarzania języka naturalnego od dawna obsługiwane przez symboliczną sztuczną inteligencję, ale od tego czasu udoskonalone dzięki metodom głębokiego uczenia się. W symbolicznej sztucznej inteligencji znaczeń zdań zastosowano teorię reprezentacji dyskursu i logikę pierwszego rzędu. Ukryta analiza semantyczna (LSA) i jawna analiza semantyczna zapewniły również reprezentacje wektorowe dokumentów. W tym drugim przypadku komponenty wektorowe można interpretować jako pojęcia nazwane w artykułach Wikipedii.

Nowe podejścia do głębokiego uczenia się oparte na modelach Transformer przyćmiły teraz te wcześniejsze symboliczne podejścia AI i osiągnęły najnowocześniejszą wydajność w przetwarzaniu języka naturalnego . Jednak modele Transformera są nieprzejrzyste i nie tworzą jeszcze interpretacji semantycznych dla zdań i dokumentów, które można by interpretować przez człowieka. Zamiast tego tworzą wektory specyficzne dla zadania, w których znaczenie składników wektora jest nieprzejrzyste.

Agenci i systemy wieloagentowe

Agenci to autonomiczne systemy osadzone w środowisku, które postrzegają iw pewnym sensie na nie działają. Standardowy podręcznik Russella i Norviga dotyczący sztucznej inteligencji jest zorganizowany w taki sposób, aby odzwierciedlał coraz bardziej zaawansowane architektury agentów. Zaawansowanie agentów waha się od prostych agentów reaktywnych do tych z modelem świata i możliwościami zautomatyzowanego planowania , być może agenta BDI , tj. takiego, który ma przekonania, pragnienia i intencje – lub alternatywnie model uczenia się przez wzmacnianie , którego nauczyłeś się z czasem, aby wybrać działania – aż do kombinacji alternatywnych architektur, takich jak neuro-symbolicznej architektury, która obejmuje głębokie uczenie się percepcji.

W przeciwieństwie do tego system wieloagentowy składa się z wielu agentów, którzy komunikują się między sobą za pomocą języka komunikacji między agentami, takiego jak KQML ( Knowledge Query and Manipulation Language ). Nie wszyscy agenci muszą mieć taką samą architekturę wewnętrzną. Zalety systemów wieloagentowych obejmują możliwość podziału pracy między agentów i zwiększenie odporności na awarie w przypadku utraty agentów. Problemy badawcze obejmują sposób, w jaki agenci osiągają konsensus , rozproszone rozwiązywanie problemów , wieloagentowe uczenie się , wieloagentowe planowanie oraz rozproszona optymalizacja ograniczeń .

Kontrowersje

Kontrowersje w symbolicznej sztucznej inteligencji pojawiały się od samego początku, zarówno w obrębie tej dziedziny – np. między logikami (pro-logicznymi „ porządkami” ) i nielogikami (antylogicznymi „niechlujnikami” ) – oraz między tymi, którzy przyjęli sztuczną inteligencję, ale odrzucili symboliczne podejść — głównie koneksjonistów — i tych spoza tej dziedziny. Krytyka spoza dziedziny pochodziła głównie od filozofów, z powodów intelektualnych, ale także od agencji finansujących, zwłaszcza podczas dwóch zim AI.

Koneksjonistyczna sztuczna inteligencja: wyzwania filozoficzne i konflikty socjologiczne

Podejścia koneksjonistyczne obejmują wcześniejsze prace nad sieciami neuronowymi , takimi jak perceptrony ; prace z połowy i późnych lat 80., takie jak Connection Machine Danny'ego Hillisa i postępy Yanna Le Cuna w konwolucyjnych sieciach neuronowych ; do dzisiejszych bardziej zaawansowanych podejść, takich jak Transformers , GAN i inne prace w głębokim uczeniu się .

Wśród koneksjonistów zarysowano trzy stanowiska filozoficzne:

  1. Implementacjonizm - gdzie architektury koneksjonistyczne implementują możliwości przetwarzania symbolicznego,
  2. Radykalny koneksjonizm – gdzie przetwarzanie symboliczne jest całkowicie odrzucane, a architektury koneksjonistyczne leżą u podstaw inteligencji i są w pełni wystarczające do jej wyjaśnienia,
  3. Umiarkowany koneksjonizm — gdzie symboliczne przetwarzanie i koneksjonistyczne architektury są postrzegane jako komplementarne i oba są wymagane do inteligencji.

Olazaran w swojej socjologicznej historii kontrowersji w społeczności sieci neuronowych opisał pogląd umiarkowanego koneksjonizmu jako zasadniczo zgodny z obecnymi badaniami nad hybrydami neuro-symbolicznymi :

Trzecim i ostatnim stanowiskiem, które chciałbym tu zbadać, jest to, co nazywam umiarkowanym koneksjonistycznym poglądem, bardziej eklektycznym spojrzeniem na obecną debatę między koneksjonizmem a symboliczną sztuczną inteligencją. Jednym z badaczy, który najdobitniej rozwinął to stanowisko, jest Andy Clark , filozof ze School of Cognitive and Computing Sciences Uniwersytetu Sussex (Brighton, Anglia). Clark bronił systemów hybrydowych (częściowo symbolicznych, częściowo koneksjonistycznych). Twierdził, że do badania i modelowania poznania potrzebne są (co najmniej) dwa rodzaje teorii. Z jednej strony, w przypadku niektórych zadań związanych z przetwarzaniem informacji (takich jak rozpoznawanie wzorców) koneksjonizm ma przewagę nad modelami symbolicznymi. Ale z drugiej strony, dla innych procesów poznawczych (takich jak wnioskowanie seryjne, dedukcyjne i generatywne procesy manipulacji symbolami) paradygmat symboliczny oferuje adekwatne modele, a nie tylko „przybliżenia” (wbrew temu, co twierdzą radykalni koneksjoniści).

Gary Marcus twierdził, że niechęć społeczności głębokiego uczenia się do podejść symbolicznych może być teraz bardziej socjologiczna niż filozoficzna:

Myślenie, że możemy po prostu zrezygnować z manipulacji symbolami, oznacza zawieszenie niewiary.

A jednak w przeważającej części tak postępuje większość obecnej sztucznej inteligencji. Hinton i wielu innych próbowało całkowicie wyeliminować symbole. Nadzieja na głęboką naukę – najwyraźniej zakorzeniona nie tyle w nauce, ile w pewnego rodzaju historycznej urazie – polega na tym, że inteligentne zachowanie wyłoni się wyłącznie z połączenia ogromnych ilości danych i głębokiego uczenia się . Tam, gdzie klasyczne komputery i oprogramowanie rozwiązują zadania poprzez definiowanie zestawów reguł manipulowania symbolami dedykowanych poszczególnym zadaniom, takim jak edycja wiersza w edytorze tekstu lub wykonywanie obliczeń w arkuszu kalkulacyjnym, sieci neuronowe zazwyczaj starają się rozwiązywać zadania za pomocą aproksymacji statystycznej i uczenia się na przykładach.

Według Marcusa , Geoffrey Hinton i jego współpracownicy byli zaciekle „antysymboliczni”:

Kiedy głębokie uczenie się pojawiło się ponownie w 2012 roku, było to podejście, które charakteryzowało większość ostatniej dekady. Do 2015 roku jego wrogość do wszystkich symboli w pełni się skrystalizowała. Wygłosił wykład na warsztatach sztucznej inteligencji w Stanford, porównując symbole z eterem , jednym z największych błędów nauki.

...

Od tego czasu jego antysymboliczna kampania tylko przybrała na sile. W 2016 roku Yann LeCun , Bengio i Hinton napisali manifest dotyczący głębokiego uczenia się w jednym z najważniejszych czasopism naukowych, Nature. Zakończyło się bezpośrednim atakiem na manipulację symbolami, wzywając nie do pojednania, ale do całkowitej wymiany. Później Hinton powiedział zgromadzeniu przywódców Unii Europejskiej, że inwestowanie dalszych pieniędzy w metody manipulowania symbolami było „ogromnym błędem”, porównując to do inwestowania w silniki spalinowe w erze samochodów elektrycznych.

Część tych sporów może wynikać z niejasnej terminologii:

Zdobywca nagrody Turinga, Judea Pearl, przedstawia krytykę uczenia maszynowego , która niestety łączy pojęcia uczenia maszynowego i uczenia głębokiego . Podobnie, gdy Geoffrey Hinton odnosi się do symbolicznej sztucznej inteligencji, konotacja tego terminu wydaje się być konotacją systemów eksperckich pozbawionych jakiejkolwiek zdolności uczenia się. Użycie terminologii wymaga wyjaśnienia. Uczenie maszynowe nie ogranicza się do eksploracji reguł asocjacyjnych , por. prace dotyczące symbolicznego uczenia maszynowego i relacyjnego uczenia się (różnice w stosunku do głębokiego uczenia się polegają na wyborze reprezentacji, lokalizacji logicznej zamiast rozproszonej oraz niestosowaniu algorytmów uczenia się opartych na gradiencie ). Podobnie symboliczna sztuczna inteligencja to nie tylko ręcznie pisane zasady produkcji . Właściwa definicja AI dotyczy reprezentacji i rozumowania wiedzy , autonomicznych systemów wieloagentowych , planowania i argumentacji , a także uczenia się.

Filozoficzne: krytyka Dreyfusa i innych filozofów

Teraz zwracamy się do ataków z zewnątrz, w szczególności ze strony filozofów. Jeden z często cytowanych przez filozofów argumentów został przedstawiony wcześniej przez informatyka Alana Turinga w jego artykule Computing Machinery and Intelligence z 1950 roku, kiedy powiedział, że „ludzkie zachowanie jest zbyt złożone, aby można je było uchwycić jakimkolwiek formalnym zbiorem reguł – ludzie muszą używać pewne nieformalne wytyczne, których… nigdy nie można było uchwycić w formalnym zestawie zasad, a zatem nigdy nie można było skodyfikować w programie komputerowym”. Turing nazwał to „Argumentem z nieformalnego zachowania”.

Podobną krytykę przedstawił Hubert Dreyfus w swoich książkach What Computers Can't Do i What Computers Still Can't Do. Dreyfus przewidział, że sztuczna inteligencja będzie odpowiednia tylko w przypadku problemów z zabawkami i pomyślał, że budowanie bardziej złożonych systemów lub skalowanie pomysłu w kierunku przydatnego oprogramowania nie będzie możliwe. John Haugeland , inny filozof, podobnie argumentował przeciwko opartej na regułach symbolicznej sztucznej inteligencji w swojej książce Artificial Intelligence: The Very Idea , nazywając to GOFAI („Dobra staroświecka sztuczna inteligencja”).

Russell i Norvig wyjaśniają, że argumenty te były wymierzone w symboliczną sztuczną inteligencję lat 80.:

Krytykowana przez nich technologia została nazwana Good Old-Fashioned AI (GOFAI). GOFAI odpowiada najprostszemu opisanemu projektowi agenta logicznego ... i widzieliśmy ... że rzeczywiście trudno jest uchwycić każdą ewentualność odpowiedniego zachowania w zestawie niezbędnych i wystarczających reguł logicznych; nazwaliśmy to problemem kwalifikacyjnym .

Od tego czasu systemy wnioskowania probabilistycznego rozszerzyły możliwości symbolicznej sztucznej inteligencji, dzięki czemu mogą być „bardziej odpowiednie dla domen otwartych”. Jednak Dreyfus podniósł inny argument, którego nie można rozwiązać za pomocą bezcielesnych symbolicznych systemów AI:

Jeden z najmocniejszych argumentów Dreyfusa dotyczy umiejscowionych agentów , a nie bezcielesnych silników wnioskowania logicznego. Agent, którego rozumienie „psa” pochodzi tylko z ograniczonego zestawu zdań logicznych, takich jak „Pies(x) ⇒ Ssak(x)”, jest w niekorzystnej sytuacji w porównaniu z agentem, który obserwował biegające psy, bawił się z nimi w aportowanie, i został polizany przez jednego. Jako filozof Andy Clark (1998) mówi: „Biologiczne mózgi są przede wszystkim systemami kontroli ciał biologicznych. Ciała biologiczne poruszają się i działają w bogatym otoczeniu świata rzeczywistego”. Według Clarka jesteśmy „dobrzy we frisbee, kiepscy w logice”.

Podejście oparte na ucieleśnionym poznaniu twierdzi, że nie ma sensu rozpatrywać mózgu oddzielnie: poznanie odbywa się w ciele, które jest osadzone w środowisku. Musimy przestudiować system jako całość; funkcjonowanie mózgu wykorzystuje prawidłowości w swoim otoczeniu, w tym w reszcie ciała. W ucieleśnionego poznania robotyka, wizja i inne czujniki stają się centralne, a nie peryferyjne.

Usytuowana robotyka: świat jako model

Rodney Brooks stworzył robotykę opartą na zachowaniu , zwaną także Nouvelle AI , jako alternatywę zarówno dla symbolicznej sztucznej inteligencji, jak i koneksjonistycznej sztucznej inteligencji. Jego podejście odrzuciło reprezentacje, symboliczne lub rozproszone, jako nie tylko niepotrzebne, ale i szkodliwe. Zamiast tego stworzył architekturę subsumpcji , warstwową architekturę dla ucieleśnionych agentów. Każda warstwa realizuje inny cel i musi funkcjonować w realnym świecie. Na przykład pierwszego robota, którego opisuje w Inteligencji bez reprezentacji , ma trzy warstwy. Dolna warstwa interpretuje czujniki sonaru w celu unikania obiektów. Warstwa środkowa powoduje, że robot porusza się, gdy nie ma żadnych przeszkód. Górna warstwa powoduje, że robot udaje się w bardziej odległe miejsca w celu dalszej eksploracji. Każda warstwa może tymczasowo hamować lub tłumić warstwę niższego poziomu. Skrytykował badaczy AI za zdefiniowanie problemów AI dla ich systemów, kiedy: „W prawdziwym świecie nie ma wyraźnego podziału między percepcją (abstrakcją) a rozumowaniem”. Nazwał swoje roboty „Stworzeniami”, a każda warstwa „składała się z sieci o ustalonej topologii prostych maszyn o skończonych stanach”. W sztucznej inteligencji Nouvelle podejście: „Po pierwsze, niezwykle ważne jest, aby przetestować kreatury, które budujemy, w prawdziwym świecie, tj. najlepsze intencje późniejszego przeniesienia działalności do nieuproszczonego świata”. Jego nacisk na testowanie w świecie rzeczywistym kontrastował z „wczesną pracą nad sztuczną inteligencją skoncentrowaną na grach, problemach geometrycznych, algebrze symbolicznej, dowodzeniu twierdzeń i innymi systemami formalnymi” oraz wykorzystaniem świata bloków w symbolicznych systemach sztucznej inteligencji, takich jak SHRDLU .

Aktualne poglądy

Każde podejście — symboliczne, koneksjonistyczne i behawioralne — ma zalety, ale zostało skrytykowane przez inne podejścia. Symboliczna sztuczna inteligencja była krytykowana jako bezcielesna, podatna na problem kwalifikacji i słaba w radzeniu sobie z problemami percepcyjnymi, w których przoduje głębokie uczenie się. Z kolei koneksjonistyczna sztuczna inteligencja była krytykowana jako słabo przystosowana do przemyślanego, stopniowego rozwiązywania problemów, włączania wiedzy i planowania obsługi. Wreszcie, Nouvelle AI przoduje w reaktywnych i rzeczywistych domenach robotyki, ale był krytykowany za trudności we włączaniu uczenia się i wiedzy.

Hybrydowa sztuczna inteligencja obejmująca jedno lub więcej z tych podejść jest obecnie postrzegana jako droga naprzód. Russell i Norvig dochodzą do wniosku, że:

Ogólnie rzecz biorąc, Dreyfus dostrzegł obszary, w których sztuczna inteligencja nie miała pełnych odpowiedzi i powiedział, że dlatego Al jest niemożliwy; obecnie widzimy, że wiele z tych samych obszarów podlega ciągłym badaniom i rozwojowi, co prowadzi do zwiększenia możliwości, a nie do niemożliwości.

Zobacz też

Notatki

Cytaty