głęboki sen

Mona Lisa z efektem DeepDream wykorzystująca sieć VGG16 przeszkoloną w ImageNet

DeepDream to komputerowy program wizyjny stworzony przez inżyniera Google , Alexandra Mordvintseva, który wykorzystuje konwolucyjną sieć neuronową do wyszukiwania i ulepszania wzorców na obrazach za pomocą algorytmicznego pareidolia , tworząc w ten sposób senny wygląd przypominający psychodeliczne doświadczenie w celowo przetworzonych obrazach.

Program Google spopularyzował termin (głębokie) „śnienie” w odniesieniu do generowania obrazów, które powodują pożądane aktywacje w wyszkolonej głębokiej sieci , a termin ten odnosi się teraz do zbioru powiązanych podejść.

Historia

Oprogramowanie DeepDream, wywodzące się z głębokiej sieci konwolucyjnej o nazwie kodowej „Inception” na cześć filmu o tej samej nazwie , zostało opracowane na potrzeby konkursu ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) w 2014 r. i wydane w lipcu 2015 r.

Śniący pomysł i nazwa stały się popularne w internecie w 2015 roku dzięki programowi Google DeepDream. Pomysł pochodzi z wczesnej historii sieci neuronowych i podobnych metod używano do syntezy wizualnych tekstur. Powiązane pomysły na wizualizację zostały opracowane (przed pracą Google) przez kilka grup badawczych.

Po opublikowaniu przez Google swoich technik i udostępnieniu ich kodu jako open source , na rynku pojawiło się wiele narzędzi w postaci usług internetowych, aplikacji mobilnych i oprogramowania komputerowego, które umożliwiają użytkownikom przekształcanie własnych zdjęć.

Proces

An image of jellyfish on a blue background
An image of jellyfish processed with DeepDream after ten iterations
An image of jellyfish processed with DeepDream after fifty iterations
Oryginalny obraz (na górze) po zastosowaniu dziesięciu (w środku) i pięćdziesięciu (na dole) iteracji DeepDream, sieć została przeszkolona w postrzeganiu psów, a następnie uruchomiona wstecz

Oprogramowanie jest przeznaczone do wykrywania twarzy i innych wzorów na obrazach w celu automatycznej klasyfikacji obrazów. Jednak po wytrenowaniu sieć można również uruchomić w odwrotnej kolejności, prosząc o nieznaczne dostosowanie oryginalnego obrazu, tak aby dany neuron wyjściowy (np. ten dla twarzy lub niektórych zwierząt) dawał wyższy wynik pewności. Można to wykorzystać do wizualizacji, aby lepiej zrozumieć wyłaniającą się strukturę sieci neuronowej i jest to podstawa koncepcji DeepDream. Ta procedura odwrócenia nigdy nie jest całkowicie jasna i jednoznaczna, ponieważ wykorzystuje proces mapowania jeden do wielu . Jednak po wystarczającej liczbie powtórzeń nawet obrazy początkowo pozbawione poszukiwanych cech zostaną dostosowane na tyle, że powstanie forma pareidolii , za pomocą której algorytmicznie generowane są psychodeliczne i surrealistyczne obrazy. Optymalizacja przypomina propagację wsteczną , jednak zamiast dostosowywania wag sieci, wagi są utrzymywane na stałym poziomie, a dane wejściowe są dostosowywane.

Na przykład istniejący obraz można zmienić tak, aby był „bardziej podobny do kota”, a uzyskany ulepszony obraz można ponownie wprowadzić do procedury. To użycie przypomina czynność polegającą na szukaniu zwierząt lub innych wzorów w chmurach.

Zastosowanie spadku gradientu niezależnie do każdego piksela na wejściu daje obrazy, w których sąsiednie piksele mają niewielki związek, a zatem obraz zawiera zbyt dużo informacji o wysokiej częstotliwości. Wygenerowane obrazy można znacznie ulepszyć, włączając uprzedni lub regularyzator , który preferuje dane wejściowe, które mają naturalne statystyki obrazu (bez preferencji dla żadnego konkretnego obrazu) lub są po prostu gładkie. Na przykład Mahendran i in. użył regulatora całkowitej zmienności, który preferuje obrazy, które są fragmentarycznie stałe. Różne regulatory są omówione w dalszej części. Niedawno opublikowano dogłębną, wizualną eksplorację technik wizualizacji cech i regularyzacji.

Cytowane podobieństwo obrazów do halucynacji wywołanych LSD i psilocybiną sugeruje funkcjonalne podobieństwo między sztucznymi sieciami neuronowymi a poszczególnymi warstwami kory wzrokowej.

Sieci neuronowe, takie jak DeepDream, mają biologiczne analogie, które zapewniają wgląd w przetwarzanie mózgu i tworzenie świadomości. Halucynogeny, takie jak DMT, zmieniają funkcję układu serotonergicznego, który jest obecny w warstwach kory wzrokowej. Sieci neuronowe są trenowane na wektorach wejściowych i są zmieniane przez wewnętrzne zmiany podczas procesu uczenia. Modyfikacje wejściowe i wewnętrzne reprezentują odpowiednio przetwarzanie sygnałów egzogennych i endogennych w korze wzrokowej. Ponieważ zmiany wewnętrzne są modyfikowane w głębokich sieciach neuronowych, obraz wyjściowy odzwierciedla te zmiany. Ta specyficzna manipulacja pokazuje, jak wewnętrzne mechanizmy mózgu są analogiczne do wewnętrznych warstw sieci neuronowych. Wewnętrzne modyfikacje poziomu hałasu reprezentują sposób, w jaki halucynogeny pomijają zewnętrzne informacje sensoryczne, co prowadzi do silnego wpływu wewnętrznych z góry przyjętych koncepcji na percepcję wzrokową.

Stosowanie

Mocno przetworzona fotografia DeepDream przedstawiająca trzech mężczyzn w basenie

Pomysł śnienia można zastosować do ukrytych (wewnętrznych) neuronów innych niż te na wyjściu, co pozwala na eksplorację ról i reprezentacji różnych części sieci. Możliwa jest również optymalizacja danych wejściowych w celu zaspokojenia potrzeb pojedynczego neuronu (to użycie jest czasami nazywane maksymalizacją aktywności) lub całej warstwy neuronów.

Podczas gdy śnienie jest najczęściej używane do wizualizacji sieci lub tworzenia grafiki komputerowej, ostatnio zaproponowano, że dodanie „wyśnionych” danych wejściowych do zestawu uczącego może skrócić czas szkolenia abstrakcji w informatyce.

Wykazano również, że model DeepDream ma zastosowanie w dziedzinie historii sztuki .

DeepDream został wykorzystany w teledysku Foster the People do piosenki „ Doing It for the Money ”.

W 2017 roku grupa badawcza z University of Sussex stworzyła maszynę do halucynacji , stosując algorytm DeepDream do nagranego wcześniej panoramicznego wideo, umożliwiając użytkownikom eksplorację środowisk rzeczywistości wirtualnej w celu naśladowania doświadczania substancji psychoaktywnych i/lub stanów psychopatologicznych. Byli w stanie zademonstrować, że subiektywne doznania wywołane przez Maszynę Halucynacji różniły się znacznie od kontrolnych (nie'halucynogennych') wideo, wykazując jednocześnie fenomenologiczne podobieństwa do stanu psychedelicznego (po podaniu psilocybiny).

W 2021 roku badanie opublikowane w czasopiśmie Entropy wykazało podobieństwo między DeepDream a rzeczywistym doświadczeniem psychodelicznym z dowodami neuronauki . Autorzy zarejestrowali elektroencefalografię ( EEG ) ludzkich uczestników podczas biernego widzenia klipu filmowego i jego odpowiednika wygenerowanego przez DeepDream. Odkryli, że wideo DeepDream wywołało wyższą entropię w sygnale EEG i wyższy poziom funkcjonalnej łączności między obszarami mózgu, oba dobrze znane biomarkery rzeczywistego doznania psychodelicznego.

W 2022 roku grupa badawcza koordynowana przez University of Trento „zmierzyła [d] elastyczność poznawczą i kreatywność uczestników po ekspozycji na panoramiczne filmy wirtualnej rzeczywistości i ich halucynacyjne odpowiedniki wygenerowane przez algorytm DeepDream… po symulowanej ekspozycji psychodelicznej , osoby wykazywały… osłabiony wkład automatycznego procesu i chaotycznej dynamiki leżącej u podstaw ich procesów decyzyjnych, prawdopodobnie z powodu reorganizacji dynamiki poznawczej, która ułatwia eksplorację nietypowych strategii decyzyjnych i hamuje zautomatyzowane wybory”.

Zobacz też

Linki zewnętrzne