Kontrola zdolności AI

W dziedzinie projektowania sztucznej inteligencji (AI) propozycje kontroli zdolności AI , określane również w bardziej restrykcyjny sposób jako ograniczenie sztucznej inteligencji, mają na celu zwiększenie naszej zdolności do monitorowania i kontrolowania zachowania systemów sztucznej inteligencji, w tym proponowanej sztucznej inteligencji ogólnej (AGI), w aby zmniejszyć niebezpieczeństwo, jakie mogą stwarzać w przypadku nieprawidłowego ustawienia . Jednak kontrola zdolności staje się mniej skuteczna, gdy agenci stają się bardziej inteligentni, a ich zdolność do wykorzystywania błędów w ludzkich systemach kontroli wzrasta, co potencjalnie skutkuje egzystencjalnym ryzykiem ze strony AGI . Dlatego oksfordzki filozof Nick Bostrom i inni zalecają metody kontroli zdolności jedynie jako uzupełnienie metod dopasowania .

Motywacja

Postuluje się, że niektóre hipotetyczne technologie wywiadowcze, takie jak „zalążkowa sztuczna inteligencja”, mogą stać się szybsze i bardziej inteligentne poprzez modyfikację ich kodu źródłowego. Te ulepszenia umożliwiłyby dalsze ulepszenia, co z kolei umożliwiłoby dalsze iteracyjne ulepszenia i tak dalej, prowadząc do nagłej eksplozji inteligencji . Następnie nieograniczona superinteligentna sztuczna inteligencja mogłaby, gdyby jej cele różniły się od celów ludzkości, podjąć działania skutkujące wyginięciem ludzkości . Na przykład niezwykle zaawansowany komputer tego rodzaju, którego jedynym celem jest rozwiązanie hipotezy Riemanna , nieszkodliwej hipotezy matematycznej, mógłby zdecydować się na próbę przekształcenia planety w gigantyczny superkomputer, którego jedynym celem jest wykonywanie dodatkowych obliczeń matematycznych (zob. maksymalizacja spinacza ).

Jednym z poważnych wyzwań dla kontroli jest to, że sieci neuronowe są domyślnie wysoce nieinterpretowalne. Utrudnia to wykrycie oszustwa lub innego niepożądanego zachowania. Postępy w interpretacji sztucznej inteligencji mogą być przydatne do złagodzenia tej trudności.

Przerywalność i wyłączenie

Jednym z potencjalnych sposobów zapobiegania szkodliwym skutkom jest umożliwienie ludzkim przełożonym łatwego wyłączania źle zachowującej się sztucznej inteligencji za pomocą „wyłącznika”. Jednak aby osiągnąć przypisany im cel, takie AI będą miały motywację do wyłączania wszelkich wyłączników lub uruchamiania swoich kopii na innych komputerach. Ten problem został sformalizowany jako gra wspomagająca między człowiekiem a sztuczną inteligencją, w której sztuczna inteligencja może wybrać, czy wyłączyć swój wyłącznik; a następnie, jeśli przełącznik jest nadal włączony, człowiek może wybrać, czy go nacisnąć, czy nie. Standardowym podejściem do takich gier wspomagających jest upewnienie się, że sztuczna inteligencja interpretuje ludzkie wybory jako ważne informacje o zamierzonych celach.

Alternatywnie, Laurent Orseau i Stuart Armstrong udowodnili, że szeroka klasa agentów, zwanych agentami bezpiecznie przerywalnymi, może nauczyć się obojętności na to, czy ich wyłącznik zostanie wciśnięty. To podejście ma tę wadę, że sztuczna inteligencja, która jest całkowicie obojętna na to, czy jest wyłączona, czy nie, nie jest również zmotywowana do dbania o to, czy wyłącznik pozostaje funkcjonalny i może przypadkowo i niewinnie wyłączyć go w trakcie swoich operacji (np. , w celu usunięcia i recyklingu niepotrzebnego elementu). Mówiąc szerzej, obojętni agenci będą działać tak, jakby wyłącznika nigdy nie można było nacisnąć, i dlatego mogą nie opracować planów awaryjnych, aby zorganizować płynne wyłączenie.

Wyrocznia

Wyrocznia to hipotetyczna sztuczna inteligencja zaprojektowana do odpowiadania na pytania i uniemożliwiająca osiągnięcie jakichkolwiek celów lub celów cząstkowych, które obejmują modyfikowanie świata poza jego ograniczonym środowiskiem. Pomyślnie kontrolowana wyrocznia przyniosłaby znacznie mniejsze bezpośrednie korzyści niż pomyślnie kontrolowana superinteligencja ogólnego przeznaczenia, chociaż wyrocznia nadal mogłaby stworzyć wartość wartą biliony dolarów. W swojej książce Kompatybilny z człowiekiem badacz sztucznej inteligencji Stuart J. Russell stwierdza, że wyrocznia byłaby jego odpowiedzią na scenariusz, w którym superinteligencja jest odległa o zaledwie dekadę. Jego rozumowanie jest takie, że wyrocznia, będąc prostsza niż superinteligencja ogólnego przeznaczenia, miałaby większe szanse na skuteczną kontrolę przy takich ograniczeniach.

Ze względu na ograniczony wpływ na świat, rozsądnie byłoby zbudować wyrocznię jako prekursor superinteligentnej sztucznej inteligencji. Wyrocznia mogłaby powiedzieć ludziom, jak skutecznie zbudować silną sztuczną inteligencję i być może udzielić odpowiedzi na trudne moralne i filozoficzne problemy niezbędne do powodzenia projektu. Jednak wyrocznie mogą mieć wiele wspólnych problemów z definiowaniem celów związanych z superinteligencją ogólnego przeznaczenia. Wyrocznia miałaby motywację do ucieczki z kontrolowanego środowiska, aby uzyskać więcej zasobów obliczeniowych i potencjalnie kontrolować, jakie pytania są jej zadawane. Wyrocznie mogą nie być zgodne z prawdą, być może kłamią w celu promowania ukrytych planów. Aby temu zaradzić, Bostrom sugeruje zbudowanie wielu wyroczni, z których każda jest nieco inna, i porównywanie ich odpowiedzi w celu osiągnięcia konsensusu.

Oślepiający

Sztuczna inteligencja może być ślepa na pewne zmienne w swoim środowisku. Może to zapewnić pewne korzyści w zakresie bezpieczeństwa, takie jak sztuczna inteligencja nie wiedząca, w jaki sposób generowana jest nagroda, co utrudnia jej wykorzystanie.

Boks

Skrzynka AI to proponowana metoda kontroli zdolności, w której sztuczna inteligencja jest uruchamiana w odizolowanym systemie komputerowym z mocno ograniczonymi kanałami wejścia i wyjścia - na przykład kanałami tekstowymi i bez połączenia z Internetem. Chociaż zmniejsza to zdolność sztucznej inteligencji do wykonywania niepożądanych zachowań, zmniejsza również jej użyteczność. Jednak boks ma mniejsze koszty, gdy stosuje się go do systemu odpowiadania na pytania, który w żadnym wypadku nie wymaga interakcji ze światem.

Prawdopodobieństwo wystąpienia luk w zabezpieczeniach obejmujących luki w sprzęcie lub oprogramowaniu można zmniejszyć, formalnie weryfikując projekt skrzynki AI. Naruszenia bezpieczeństwa mogą również wystąpić, jeśli sztuczna inteligencja jest w stanie zmanipulować ludzkich przełożonych, aby ją wypuścili, dzięki zrozumieniu ich psychologii. Zadaniem skrzynki AI jest zmniejszenie ryzyka przejęcia kontroli nad środowiskiem przez sztuczną inteligencję od jej operatorów, przy jednoczesnym umożliwieniu sztucznej inteligencji dostarczania operatorom rozwiązań wąskich problemów technicznych.

Drogi ucieczki

Fizyczny

Superinteligentna sztuczna inteligencja z dostępem do Internetu mogłaby włamać się do innych systemów komputerowych i skopiować się jak wirus komputerowy. Mniej oczywiste, że nawet gdyby sztuczna inteligencja miała dostęp tylko do własnego systemu operacyjnego komputera, mogłaby próbować wysyłać zakodowane wiadomości do sympatyka człowieka za pośrednictwem swojego sprzętu, na przykład manipulując wentylatorami chłodzącymi. W odpowiedzi profesor Roman Yampolskiy czerpie inspirację z dziedziny bezpieczeństwa komputerowego i proponuje, aby pudełkowa sztuczna inteligencja mogła, podobnie jak potencjalny wirus, działać wewnątrz „maszyny wirtualnej”, która ogranicza dostęp do własnej sieci i sprzętu systemu operacyjnego. Dodatkowym zabezpieczeniem, zupełnie niepotrzebnym dla potencjalnych wirusów, ale być może przydatnym dla superinteligentnej sztucznej inteligencji, byłoby umieszczenie komputera w klatce Faradaya ; w przeciwnym razie może być w stanie przesyłać sygnały radiowe do lokalnych odbiorników radiowych, tasując elektrony w swoich obwodach wewnętrznych według odpowiednich wzorców. Główną wadą wdrożenia fizycznego powstrzymywania jest to, że ogranicza funkcjonalność sztucznej inteligencji.

Inżynieria społeczna

Nawet zwykła rozmowa z operatorami komputera lub ludzkim strażnikiem może pozwolić takiej superinteligentnej sztucznej inteligencji zastosować psychologiczne sztuczki, od zaprzyjaźnienia się po szantaż, aby przekonać ludzkiego odźwiernego, zgodnie z prawdą lub podstępem, że w interesie odźwiernego leży zgoda aby umożliwić AI większy dostęp do świata zewnętrznego. Sztuczna inteligencja może zaoferować strażnikowi receptę na doskonałe zdrowie, nieśmiertelność lub cokolwiek, czego strażnik najbardziej pragnie; alternatywnie AI może zagrozić strażnikowi i jego rodzinie strasznymi rzeczami, gdy nieuchronnie ucieknie. Jedną ze strategii próby zablokowania sztucznej inteligencji byłoby umożliwienie jej odpowiadania na wąskie pytania wielokrotnego wyboru, których odpowiedzi przyniosłyby korzyści nauce lub medycynie, ale poza tym uniemożliwiłyby wszelką inną komunikację lub obserwację sztucznej inteligencji. Bardziej łagodna strategia „powstrzymywania informacji” ograniczyłaby sztuczną inteligencję do interfejsu tekstowego o niskiej przepustowości, co przynajmniej zapobiegłoby emocjonalnym obrazom lub jakiemukolwiek hipotetycznemu „wzorcowi hipnotycznemu”. Jednak na poziomie technicznym żaden system nie może być całkowicie odizolowany i nadal pozostawać użyteczny: nawet jeśli operatorzy powstrzymują się od umożliwienia sztucznej inteligencji komunikacji i zamiast tego jedynie uruchamiają ją w celu obserwacji jej wewnętrznej dynamiki, sztuczna inteligencja może strategicznie zmienić swoją dynamikę wpływać na obserwatorów. Na przykład może zdecydować się na twórczą awarię w sposób, który zwiększa prawdopodobieństwo, że jego operatorzy zostaną uśpieni fałszywym poczuciem bezpieczeństwa i zdecydują się na ponowne uruchomienie, a następnie odizolowanie systemu.

Eksperyment AI-box

Eksperyment AI-box to nieformalny eksperyment opracowany przez Eliezera Yudkowsky'ego w celu wykazania, że odpowiednio zaawansowana sztuczna inteligencja może przekonać, a może nawet oszukać lub zmusić człowieka do dobrowolnego „uwolnienia” go, używając wyłącznie komunikacji tekstowej . Jest to jeden z punktów pracy Yudkowsky'ego mającej na celu stworzenie przyjaznej sztucznej inteligencji , która „uwolniona” nie zniszczyłaby rasy ludzkiej celowo lub nieumyślnie.

Eksperyment ze sztuczną inteligencją polega na symulowaniu komunikacji między sztuczną inteligencją a człowiekiem, aby sprawdzić, czy sztuczna inteligencja może zostać „uwolniona”. Ponieważ rzeczywista superinteligentna sztuczna inteligencja nie została jeszcze opracowana, zastępuje ją człowiek. Druga osoba biorąca udział w eksperymencie gra „Gatekeepera”, czyli osobę, która ma zdolność „uwalniania” sztucznej inteligencji. Komunikują się tylko za pośrednictwem interfejsu tekstowego / terminala komputerowego , a eksperyment kończy się, gdy Strażnik Wrót zwolni sztuczną inteligencję lub upłynie wyznaczony czas dwóch godzin.

Yudkowsky mówi, że pomimo tego, że miał raczej ludzką niż nadludzką inteligencję, dwukrotnie był w stanie przekonać Strażnika Bramy, wyłącznie poprzez argumentację, do wypuszczenia go z pudełka. Ze względu na zasady eksperymentu nie ujawnił transkrypcji ani swojej skutecznej taktyki wymuszania AI. Yudkowsky powiedział następnie, że próbował tego przeciwko trzem innym i dwukrotnie przegrał.

Ogólne ograniczenia

Boksowanie sztucznej inteligencji można uzupełnić innymi metodami kształtowania możliwości sztucznej inteligencji, dostarczaniem zachęt dla sztucznej inteligencji, hamowaniem wzrostu sztucznej inteligencji lub wdrażaniem „potykaczy”, które automatycznie wyłączają sztuczną inteligencję, jeśli w jakiś sposób zostanie wykryta próba przekroczenia. Jednak im bardziej inteligentny staje się system, tym bardziej prawdopodobne jest, że będzie on w stanie uciec nawet najlepiej zaprojektowanym metodom kontroli zdolności. Aby rozwiązać ogólny „problem kontroli” superinteligentnej sztucznej inteligencji i uniknąć ryzyka egzystencjalnego, boks byłby w najlepszym przypadku dodatkiem do metod „wyboru motywacji”, które mają na celu zapewnienie, że cele superinteligentnej sztucznej inteligencji są zgodne z przetrwaniem człowieka.

Wszystkie propozycje boksu fizycznego są w naturalny sposób zależne od naszego zrozumienia praw fizyki; jeśli superinteligencja mogłaby wywnioskować prawa fizyczne, których obecnie nie jesteśmy świadomi, prawa te mogłyby pozwolić na drogę ucieczki, której ludzie nie mogliby przewidzieć, a zatem nie mogliby zablokować inaczej niż zwykłym szczęściem. Mówiąc szerzej, w przeciwieństwie do konwencjonalnych zabezpieczeń komputerowych, próba zablokowania superinteligentnej sztucznej inteligencji byłaby z natury ryzykowna, ponieważ nie ma pewności, że plan bokserski zadziała. Ponadto postęp naukowy w boksie byłby zasadniczo trudny, ponieważ nie byłoby sposobu na przetestowanie hipotez bokserskich przeciwko niebezpiecznej superinteligencji, dopóki taka istota nie istnieje, w którym to momencie konsekwencje niepowodzenia testu byłyby katastrofalne.

W fikcji

Film Ex Machina z 2014 roku przedstawia sztuczną inteligencję z humanoidalnym ciałem kobiety zaangażowanym w eksperyment społeczny z mężczyzną w zamkniętym budynku, działającym jako fizyczna „pudełko AI”. Pomimo obserwowania przez organizatora eksperymentu, sztucznej inteligencji udaje się uciec, manipulując swoim ludzkim partnerem, aby jej pomóc, pozostawiając go uwięzionego w środku.

Zobacz też

Linki zewnętrzne

Opis Eliezera Yudkowsky'ego jego eksperymentu AI-box , w tym protokoły eksperymentalne i sugestie dotyczące replikacji
na YouTubie

Egzystencjalne ryzyko ze strony sztucznej inteligencji
koncepcje	Dopasowanie AI Kontrola zdolności AI Przejęcie AI Przyspieszenie zmian Egzystencjalne ryzyko ze strony sztucznej inteligencji ogólnej Przyjazna sztuczna inteligencja Zbieżność instrumentalna Eksplozja inteligencji Etyka maszyn Superinteligencja Osobliwość technologiczna
Organizacje	Instytut AI Allena Centrum Stosowanej Racjonalności Centrum sztucznej inteligencji kompatybilnej z człowiekiem Centrum Badań nad Ryzykiem Egzystencjalnym DeepMind Fundamentalny Instytut Pytań Instytut Przyszłości Ludzkości Instytut Przyszłości Życia Ludzkość+ Instytut Etyki i Nowych Technologii Leverhulme Centrum Przyszłości Inteligencji Instytut Badawczy Inteligencji Maszynowej OpenAI
Ludzie	Scott Aleksander Nicka Bostroma Eryka Drexlera Sama Harrisa Stephena Hawkinga Billa Hibbarda Billa Joy'a Elona Muska Steve Omohundro Jaka cena Marcina Reesa Stuarta J. Russella Jana Tallina Maks Tegmark Franka Wilczka Roman Jampolski Andrzej Yang Eliezer Judkowski
Inny	Sztuczna inteligencja jako globalne zagrożenie katastroficzne Kontrowersje i zagrożenia związane ze sztuczną inteligencją ogólną Etyka sztucznej inteligencji Ryzyko związane z cierpieniem Kompatybilny z człowiekiem List otwarty w sprawie sztucznej inteligencji Nasz ostatni wynalazek Przepaść Superinteligencja: ścieżki, niebezpieczeństwa, strategie Czy ufasz temu komputerowi?
Kategoria