Hipoteza efektywnego kodowania
efektywnego kodowania została zaproponowana przez Horace'a Barlowa w 1961 roku jako teoretyczny model kodowania sensorycznego w mózgu . W mózgu neurony komunikują się ze sobą, wysyłając impulsy elektryczne zwane potencjałami czynnościowymi lub skokami. Jednym z celów neuronauki czuciowej jest rozszyfrowanie znaczenia tych skoków, aby zrozumieć, w jaki sposób mózg reprezentuje i przetwarza informacje o świecie zewnętrznym. Barlow postawił hipotezę, że skoki w systemie sensorycznym tworzą kod neuronowy do skutecznego przedstawiania informacji sensorycznych. Przez wydajnego Barlowa rozumiem, że kod minimalizował liczbę impulsów potrzebnych do przesłania danego sygnału. Jest to nieco analogiczne do przesyłania informacji przez Internet, gdzie do przesyłania danego obrazu można użyć różnych formatów plików. Różne formaty plików wymagają różnej liczby bitów do przedstawienia tego samego obrazu przy danym poziomie zniekształceń, a niektóre lepiej nadają się do reprezentowania określonych klas obrazów niż inne. Zgodnie z tym modelem uważa się, że mózg używa kodu, który jest odpowiedni do reprezentowania informacji wizualnych i dźwiękowych reprezentatywnych dla naturalnego środowiska organizmu.
Efektywne kodowanie i teoria informacji
Na rozwój hipotezy Barlowa miała wpływ teoria informacji wprowadzona przez Claude'a Shannona zaledwie dekadę wcześniej. Teoria informacji zapewnia ramy matematyczne do analizy systemów komunikacyjnych. Formalnie definiuje pojęcia takie jak informacja , przepustowość kanału i nadmiarowość . Model Barlowa traktuje ścieżkę czuciową jako kanał komunikacyjny, w którym impulsy neuronalne są skutecznym kodem reprezentującym sygnały czuciowe. Kod wzbogacający ma na celu maksymalizację dostępnej przepustowości kanału poprzez minimalizację redundancji między jednostkami reprezentacyjnymi. H. Barlow nie był pierwszym, który przedstawił ten pomysł: pojawia się on już w artykule F. Attneave'a z 1954 roku.
Kluczową prognozą hipotezy efektywnego kodowania jest to, że przetwarzanie sensoryczne w mózgu powinno być dostosowane do naturalnych bodźców. Neurony w układzie wzrokowym (lub słuchowym) powinny być zoptymalizowane do kodowania obrazów (lub dźwięków) reprezentatywnych dla tych występujących w naturze. Badacze wykazali, że filtry zoptymalizowane do kodowania obrazów naturalnych prowadzą do filtrów, które przypominają pola receptywne prostych komórek w V1 . W dziedzinie słuchowej optymalizacja sieci do kodowania dźwięków naturalnych prowadzi do filtrów, które przypominają odpowiedź impulsową filtrów ślimakowych znajdujących się w uchu wewnętrznym .
Ograniczenia w systemie wizualnym
Ze względu na ograniczenia układu wzrokowego, takie jak liczba neuronów i energia metaboliczna wymagana do „działań neuronalnych”, system przetwarzania wzrokowego musi mieć wydajną strategię przekazywania jak największej ilości informacji. Informacje muszą być kompresowane, gdy przemieszczają się z siatkówki z powrotem do kory wzrokowej . Podczas gdy receptory siatkówki mogą odbierać informacje z prędkością 10^9 bitów/s, nerw wzrokowy , który składa się z 1 miliona komórek zwojowych transmitujących z prędkością 1 bit/s, ma zdolność transmisji tylko 10^6 bitów/s. Następuje dalsza redukcja, która ogranicza całkowitą transmisję do 40 bitów/s, co skutkuje ślepotą nieuwagi . Tak więc hipoteza głosi, że neurony powinny kodować informacje tak wydajnie, jak to możliwe, aby zmaksymalizować zasoby neuronowe. Wykazano na przykład, że dane wizualne można skompresować nawet 20-krotnie bez zauważalnej utraty informacji.
Dowody sugerują, że nasz system przetwarzania wizualnego angażuje się w selekcję oddolną. Na przykład ślepota nieuważna sugeruje, że na ścieżce wzrokowej musi nastąpić usunięcie danych na wczesnym etapie. To oddolne podejście pozwala nam szybciej reagować na nieoczekiwane i najistotniejsze wydarzenia i często jest kierowane przez uważną selekcję. Daje to również naszemu systemowi wizualnemu właściwość bycia ukierunkowanym na cel. Wielu sugerowało, że system wizualny jest w stanie działać wydajnie, dzieląc obrazy na odrębne komponenty. Ponadto argumentowano, że system wizualny wykorzystuje nadmiarowość danych wejściowych, aby przesłać jak najwięcej informacji przy jak najmniejszym zużyciu zasobów.
System neuronowy oparty na ewolucji
Simoncelli i Olshausen przedstawiają trzy główne koncepcje, które mają być zaangażowane w rozwój neuronauki systemowej:
- organizm ma określone zadania do wykonania
- neurony mają możliwości i ograniczenia
- organizm znajduje się w określonym środowisku.
Jednym z założeń zastosowanych w testowaniu hipotezy efektywnego kodowania jest to, że neurony muszą być ewolucyjnie i rozwojowo przystosowane do naturalnych sygnałów w ich środowisku. Chodzi o to, że systemy percepcyjne będą najszybciej reagować na „bodźce środowiskowe”. System wizualny powinien wyeliminować wszelkie nadmiarowe dane wejściowe sensoryczne.
Naturalne obrazy i statystyki
Centralnym punktem hipotezy Barlowa jest teoria informacji , która w zastosowaniu do neuronauki dowodzi, że wydajnie kodujący system neuronowy „powinien pasować do statystyk sygnałów, które reprezentują”. Dlatego ważne jest, aby móc określić statystyki naturalnych obrazów , które wytwarzają te sygnały. Badacze przyjrzeli się różnym komponentom naturalnych obrazów, w tym kontrastowi luminancji, kolorowi i sposobowi rejestracji obrazów w czasie. Mogą analizować właściwości naturalnych scenerii za pomocą aparatów cyfrowych, spektrofotometrów i dalmierzy.
Naukowcy przyglądają się, jak kontrasty luminancji rozkładają się przestrzennie na obrazie: kontrasty luminancji są silnie skorelowane, im bliżej znajdują się w mierzalnej odległości, i mniej skorelowane, im dalej są piksele. Niezależna analiza składowych (ICA) to system algorytmów , który próbuje „liniowo przekształcić dane (czuciowe) dane wejściowe w niezależne wyjścia (prądy synaptyczne)”. ICA eliminuje redundancję poprzez dekorelację pikseli w naturalnym obrazie. W ten sposób poszczególne komponenty składające się na naturalny obraz stają się statystycznie niezależne . Jednak naukowcy uważali, że ICA jest ograniczona, ponieważ zakłada, że odpowiedź neuronalna jest liniowa, a zatem niewystarczająco opisuje złożoność naturalnych obrazów. Twierdzą, że pomimo tego, co zakłada ICA, składniki obrazu naturalnego mają „strukturę wyższego rzędu”, która obejmuje korelacje między składnikami. Zamiast tego naukowcy opracowali analizę składowych niezależnych od czasu (TICA), która lepiej odzwierciedla złożone korelacje występujące między składowymi w naturalnym obrazie. Ponadto „hierarchiczny model kowariancji” opracowany przez Karklina i Lewickiego rozszerza rzadkie metody kodowania i może reprezentować dodatkowe składniki naturalnych obrazów, takie jak „lokalizacja obiektu, skala i tekstura”.
Widma chromatyczne pochodzące od światła naturalnego, ale także odbite od „naturalnych materiałów” można łatwo scharakteryzować za pomocą analizy głównych składowych (PCA). Ponieważ czopki pochłaniają określoną ilość fotonów z naturalnego obrazu, badacze mogą wykorzystać reakcje czopków jako sposób opisywania naturalnego obrazu. Naukowcy odkryli, że trzy klasy receptorów czopków w siatkówce mogą dokładnie kodować naturalne obrazy, a kolor jest dekorelowany już w LGN . Modelowano również czas: naturalne obrazy zmieniają się w czasie, a my możemy wykorzystać te przekształcenia, aby zobaczyć, jak dane wizualne zmieniają się w czasie.
Padegogiczny przegląd wydajnego kodowania w przetwarzaniu wizualnym --- wydajne kodowanie przestrzenne, kodowanie kolorami, kodowanie czasowe/ruchowe, kodowanie stereo i ich kombinacja --- znajduje się w rozdziale 3 książki „Zrozumienie widzenia: teoria, modele, i dane". Wyjaśnia, w jaki sposób realizowane jest wydajne kodowanie, gdy szum wejściowy powoduje, że redukcja redundancji nie jest już wystarczająca, oraz jak wydajne kodowanie w różnych sytuacjach jest ze sobą powiązane lub różni się od siebie.
Hipotezy do testowania hipotezy efektywnego kodowania
Jeśli neurony kodują zgodnie z hipotezą efektywnego kodowania, to poszczególne neurony muszą wykazywać pełną zdolność wyjściową. Przed przetestowaniem tej hipotezy konieczne jest zdefiniowanie, co uważa się za odpowiedź neuronalną. Simoncelli i Olshausen sugerują, że wydajnemu neuronowi należy nadać maksymalną wartość odpowiedzi, abyśmy mogli zmierzyć, czy neuron skutecznie osiąga maksymalny poziom. Po drugie, populacja neuronów nie może być zbędna w przekazywaniu sygnałów i musi być statystycznie niezależna. Jeśli hipoteza efektywnego kodowania jest dokładna, badacze powinni zauważyć, że reakcje neuronów są rzadkie: to znaczy, że tylko kilka neuronów na raz powinno aktywować dane wejściowe.
Metodyczne podejścia do testowania hipotez
Jednym z podejść jest zaprojektowanie modelu wczesnego przetwarzania sensorycznego w oparciu o statystyki naturalnego obrazu, a następnie porównanie tego przewidywanego modelu z reakcją prawdziwych neuronów na naturalny obraz. Drugie podejście polega na zmierzeniu odpowiedzi systemu neuronowego na środowisko naturalne i przeanalizowaniu wyników w celu sprawdzenia, czy istnieją jakieś właściwości statystyczne tej odpowiedzi. Trzecim podejściem jest wyprowadzenie koniecznych i wystarczających warunków, w których obserwowane obliczenia neuronowe są wydajne, oraz sprawdzenie, czy statystyki bodźców empirycznych je spełniają.
Przykłady takich podejść
1. Przewidywane podejście modelowe
W jednym badaniu przeprowadzonym przez Doi i in. w 2012 roku naukowcy stworzyli przewidywany model odpowiedzi komórek zwojowych siatkówki , który byłby oparty na statystykach wykorzystanych obrazów naturalnych, z uwzględnieniem hałasu i ograniczeń biologicznych. Następnie porównali rzeczywistą transmisję informacji obserwowaną w rzeczywistych komórkach zwojowych siatkówki z tym optymalnym modelem, aby określić wydajność. Odkryli, że transmisja informacji w komórkach zwojowych siatkówki miała ogólną wydajność około 80% i doszli do wniosku, że „funkcjonalna łączność między czopkami a komórkami zwojowymi siatkówki wykazuje unikalną strukturę przestrzenną… zgodną z wydajnością kodowania.
Badanie przeprowadzone przez van Haterena i Rudermana w 1998 r. Wykorzystało ICA do analizy sekwencji wideo i porównało sposób, w jaki komputer analizował niezależne komponenty obrazu z danymi do przetwarzania wizualnego uzyskanymi od kota w DeAngelis i in. 1993. Naukowcy opisali niezależne komponenty uzyskane z sekwencji wideo jako „podstawowe elementy budulcowe sygnału”, przy czym niezależny filtr komponentów (ICF) mierzy „jak silnie obecny jest każdy element konstrukcyjny”. Postawili hipotezę, że jeśli proste komórki są zorganizowane w celu wyłapywania „podstawowej struktury” obrazów w czasie, wówczas komórki powinny działać jak niezależne filtry składowe. Odkryli, że ICF określone przez komputer były podobne do „ pól receptywnych ”, które obserwowano w rzeczywistych neuronach.
2. Analiza rzeczywistego układu neuronowego w odpowiedzi na naturalne obrazy
W raporcie w Science z 2000 roku William E. Vinje i Jack Gallant nakreślili serię eksperymentów użytych do przetestowania elementów hipotezy wydajnego kodowania, w tym teorii, że nieklasyczne pole receptywne (nCRF) dekoreluje projekcje z pierwotnej kory wzrokowej . Aby to przetestować, zarejestrowali neurony V1 obudzonych makaków podczas „swobodnego oglądania naturalnych obrazów i warunków”, które symulowały naturalne warunki widzenia. Naukowcy postawili hipotezę, że V1 używa rzadkiego kodu , który jest minimalnie zbędny i „bardziej wydajny metabolicznie”. Postawili również hipotezę, że interakcje między klasycznym polem receptywnym (CRF) a nCRF wytworzyły ten wzór rzadkiego kodowania podczas oglądania tych naturalnych scen. Aby to przetestować, utworzyli ścieżki skanowania oczu, a także wyodrębnili plamy o wielkości od 1 do 4 razy większej od średnicy CRF. Odkryli, że rzadkość kodowania wzrastała wraz z rozmiarem łatki. Większe łaty obejmowały więcej nCRF, co wskazuje, że interakcje między tymi dwoma regionami stworzyły rzadki kod. Dodatkowo wraz ze wzrostem wielkości bodźca rosła rzadkość. Sugeruje to, że V1 używa rzadkiego kodu, gdy naturalne obrazy obejmują całe pole widzenia . CRF zdefiniowano jako okrągły obszar otaczający miejsca, w których bodźce wywołały potencjały czynnościowe . Zbadano również, czy stymulacja nCRF zwiększa niezależność odpowiedzi od neuronów V1 poprzez losowy wybór par neuronów. Odkryli, że rzeczywiście neurony były znacznie bardziej oddzielone po stymulacji nCRF. Podsumowując, eksperymenty Vinje i Gallant wykazały, że V1 wykorzystuje rzadki kod, wykorzystując zarówno CRF, jak i nCRF podczas oglądania naturalnych obrazów, przy czym nCRF wykazuje ostateczny efekt dekorelacyjny na neurony, co może zwiększyć ich wydajność poprzez zwiększenie ilości niezależnych informacji niosą. Sugerują, że komórki mogą reprezentować poszczególne elementy danej sceny naturalnej, co może przyczynić się do rozpoznawania wzorców
Inne badanie przeprowadzone przez Baddeley i in. wykazało, że rozkład szybkości wypalania neuronów V1 obszaru wzrokowego kota i neuronów dolnoskroniowych (IT) małpy był wykładniczy w warunkach naturalistycznych, co implikuje optymalną transmisję informacji dla ustalonej średniej szybkości wypalania. Późniejsze badanie neuronów IT małpy wykazało, że tylko mniejszość została dobrze opisana przez wykładniczy rozkład wyładowań. De Polavieja argumentował później, że ta rozbieżność wynikała z faktu, że rozwiązanie wykładnicze jest poprawne tylko dla przypadku bez szumów, i wykazał, że biorąc pod uwagę szum, można uwzględnić zaobserwowane wyniki.
Badanie przeprowadzone przez Dana, Atticka i Reida w 1996 roku wykorzystało naturalne obrazy do przetestowania hipotezy, że na wczesnym etapie ścieżki wzrokowej przychodzące sygnały wizualne będą dekorelowane w celu optymalizacji wydajności. Tę dekorelację można zaobserwować jako „wybielenie” czasowego i przestrzennego widma mocy sygnałów neuronalnych”. Badacze odtwarzali naturalne filmy przed kotami i używali układu wieloelektrodowego do rejestrowania sygnałów neuronowych. Osiągnięto to poprzez załamanie światła oczy kotów, a następnie dopasowane do nich soczewki kontaktowe. Odkryli, że w LGN naturalne obrazy były dekorelowane i doszli do wniosku, że „wczesna ścieżka wzrokowa specjalnie przystosowała się do wydajnego kodowania naturalnych informacji wzrokowych podczas ewolucji i / lub rozwoju” .
Rozszerzenia
Jedną z implikacji hipotezy efektywnego kodowania jest to, że kodowanie neuronowe zależy od statystyki sygnałów czuciowych. Statystyki te są funkcją nie tylko środowiska (np. statystyka środowiska naturalnego), ale także zachowania organizmu (np. sposobu poruszania się w tym środowisku). Jednak percepcja i zachowanie są ze sobą ściśle powiązane w cyklu percepcja-działanie. Na przykład proces widzenia obejmuje różne rodzaje ruchów gałek ocznych . Rozszerzenie hipotezy wydajnego kodowania zwane aktywnym efektywnym kodowaniem (AEC) rozszerza wydajne kodowanie na aktywną percepcję . Postawiono hipotezę, że czynniki biologiczne optymalizują nie tylko swoje kodowanie neuronowe, ale także swoje zachowanie, aby przyczynić się do wydajnej sensorycznej reprezentacji środowiska. W tym duchu zaproponowano modele rozwoju aktywnego widzenia obuocznego i aktywnego śledzenia wzrokowego.
Mózg ma ograniczone zasoby do przetwarzania informacji, w przypadku widzenia objawia się to jako wizualne wąskie gardło uwagi. Wąskie gardło zmusza mózg do wybrania tylko niewielkiej części wizualnych informacji wejściowych do dalszego przetwarzania, ponieważ samo skuteczne kodowanie informacji nie jest już wystarczające. Kolejna teoria, hipoteza istotności V1 , została opracowana na podstawie egzogennej uważnej selekcji wizualnych informacji wejściowych do dalszego przetwarzania, kierując się oddolną mapą istotności w pierwotnej korze wzrokowej.
Krytyka
Badacze powinni zastanowić się, w jaki sposób wykorzystywane są informacje wizualne : Hipoteza nie wyjaśnia, w jaki sposób wykorzystywane są informacje ze sceny wizualnej, co jest głównym celem systemu wizualnego. Wydaje się konieczne zrozumienie, dlaczego przetwarzamy statystyki obrazu ze środowiska, ponieważ może to mieć znaczenie dla ostatecznego sposobu przetwarzania tych informacji. Jednak niektórzy badacze mogą postrzegać nieistotność celu widzenia w teorii Barlowa jako zaletę przy projektowaniu eksperymentów.
Niektóre eksperymenty pokazują korelacje między neuronami : rozważając wiele neuronów jednocześnie, nagrania „pokazują korelację, synchronizację lub inne formy statystycznej zależności między neuronami”. Należy jednak zauważyć, że większość z tych eksperymentów nie wykorzystywała naturalnych bodźców do wywoływania tych reakcji: może to nie pasować bezpośrednio do hipotezy wydajnego kodowania, ponieważ hipoteza ta dotyczy statystyk naturalnych obrazów. W swoim artykule przeglądowym Simoncelli zauważa, że być może możemy zinterpretować redundancję w hipotezie efektywnego kodowania nieco inaczej: twierdzi, że zależność statystyczną można zmniejszyć na „kolejnych etapach przetwarzania”, a nie tylko w jednym obszarze ścieżki sensorycznej
Zaobserwowana redundancja : Porównanie liczby komórek zwojowych siatkówki z liczbą neuronów w pierwotnej korze wzrokowej pokazuje wzrost liczby neuronów czuciowych w korze w porównaniu z siatkówką. Simoncelli zauważa, że jednym z głównych argumentów krytyków jest to, że wyżej na ścieżce czuciowej znajduje się większa liczba neuronów, które obsługują przetwarzanie informacji sensorycznych, więc powinno to wydawać się redundancją. Jednak ta obserwacja może nie być w pełni istotna, ponieważ neurony mają różne kodowanie neuronowe . W swojej recenzji Simoncelli zauważa, że „neurony korowe mają zwykle mniejszą szybkość odpalania i mogą używać innej formy kodu w porównaniu z neuronami siatkówki”. Neurony korowe mogą również mieć zdolność kodowania informacji przez dłuższe okresy czasu niż ich odpowiedniki w siatkówce. Eksperymenty przeprowadzone w układzie słuchowym potwierdziły, że redundancja jest zmniejszona.
Trudne do przetestowania : oszacowanie ilości teoretycznych informacji wymaga ogromnych ilości danych, a zatem jest niepraktyczne do weryfikacji eksperymentalnej. Ponadto wiadomo, że estymatory informacyjne są obciążone. Jednak nastąpił pewien eksperymentalny sukces.
Potrzebujesz dobrze zdefiniowanych kryteriów tego, co mierzyć : ta krytyka ilustruje jedną z najbardziej fundamentalnych kwestii związanych z hipotezą. Tutaj przyjmuje się założenia dotyczące definicji zarówno wejść, jak i wyjść systemu. Wejścia do systemu wizualnego nie są w pełni zdefiniowane, ale zakłada się, że są zawarte w zbiorze naturalnych obrazów. Dane wyjściowe muszą zostać zdefiniowane, aby przetestować hipotezę, ale tutaj również może wystąpić zmienność w oparciu o wybór typu neuronów do pomiaru, gdzie się znajdują i jakiego rodzaju odpowiedzi, takie jak szybkość wyładowań lub czasy impulsów, są wybierane do pomiaru .
Jak wziąć pod uwagę hałas : niektórzy twierdzą, że eksperymenty, które ignorują hałas lub inne fizyczne ograniczenia systemu, są zbyt uproszczone. Jednak niektórym badaczom udało się włączyć te elementy do swoich analiz, tworząc w ten sposób bardziej wyrafinowane systemy.
Jednak przy odpowiednich sformułowaniach wydajne kodowanie może również rozwiązać niektóre z wyżej wymienionych problemów. Na przykład przewiduje się, że pewien wymierny stopień redundancji w neuronowych reprezentacjach wejść sensorycznych (objawiający się korelacjami w reakcjach neuronowych) wystąpi, gdy wydajne kodowanie zostanie zastosowane do zaszumionych wejść sensorycznych. Można również dokonać falsyfikowalnych przewidywań teoretycznych, a niektóre z nich następnie przetestować.
Zastosowania biomedyczne
Możliwe zastosowania hipotezy efektywnego kodowania obejmują projektowanie implantów ślimakowych . Te neuroprotezy pobudzają nerw słuchowy za pomocą impulsów elektrycznych, co pozwala na powrót części słuchu osobom niedosłyszącym lub nawet głuchym . Implanty są uważane za udane i wydajne i jedyne obecnie stosowane. Wykorzystanie mapowania częstotliwości i miejsca w wydajnym algorytmie kodowania może przynieść korzyści w przyszłości przy stosowaniu implantów ślimakowych. Zmiany w projekcie oparte na tej hipotezie mogą zwiększyć zrozumiałość mowy u pacjentów z upośledzeniem słuchu. Badania z wykorzystaniem wokodowanej mowy przetwarzanej przez różne filtry wykazały, że ludzie mieli większą dokładność w rozszyfrowywaniu mowy, gdy była ona przetwarzana przy użyciu wydajnego filtra kodu, w przeciwieństwie do filtra cochleotropowego lub filtra liniowego. Pokazuje to, że wydajne kodowanie danych dotyczących hałasu zapewniało korzyści percepcyjne i zapewniało słuchaczom więcej informacji. Potrzebne są dalsze badania, aby zastosować obecne odkrycia w medycznie istotnych zmianach w projekcie implantu ślimakowego.