Johna K. Kruschke

Johna K. Kruschke
Alma Mater Uniwersytet Kalifornijski w Berkeley
Znany z
Kariera naukowa
Pola
Instytucje Bloomington na Uniwersytecie Indiany
Praca dyplomowa   Koneksjonistyczny model uczenia się kategorii (1990)
Strona internetowa jkkweb .sitehost .iu .edu

John K. Kruschke to amerykański psycholog i statystyk znany ze swojej pracy nad koneksjonistycznymi modelami ludzkiego uczenia się oraz analizą statystyczną bayesowską. Jest emerytowanym profesorem rektorem na Wydziale Nauk Psychologicznych i Nauk o Mózgu na Indiana University Bloomington . Zdobył nagrodę Troland Research Award od Narodowej Akademii Nauk w 2002 roku.

Badania

Bayesowska analiza statystyczna

Rozpowszechnianie

Popularny podręcznik Kruschkego, Doing Bayesian Data Analysis , wyróżniał się dostępnością i unikalnym rusztowaniem pojęć. W pierwszej połowie książki wykorzystano najprostszy typ danych (tj. wartości dychotomiczne) do przedstawienia wszystkich podstawowych koncepcji analizy bayesowskiej, w tym uogólnionej analizy mocy bayesowskiej i planowania wielkości próby. W drugiej połowie książki wykorzystano uogólniony model liniowy jako ramy do wyjaśnienia zastosowań w spektrum innych typów danych.

Kruschke napisał wiele artykułów instruktażowych na temat analizy danych bayesowskich, w tym artykuł o otwartym dostępie, który wyjaśnia obok siebie koncepcje bayesowskie i częstościowe. Istnieje towarzysząca aplikacja internetowa , która interaktywnie wykonuje jednocześnie analizy częstości i analizy bayesowskie. Kruschke wygłosił nagrane na wideo przemówienie plenarne na ten temat na konferencji United States Conference on Teaching Statistics (USCOTS) .

Wytyczne dotyczące raportowania analizy bayesowskiej

Analizy danych bayesowskich zyskują na popularności, ale wciąż są stosunkowo nowe w wielu dziedzinach, a wytyczne dotyczące raportowania analiz bayesowskich są przydatne dla badaczy, recenzentów i studentów. Otwarte wytyczne firmy Kruschke dotyczące raportowania analizy bayesowskiej (BARG) zawierają listę krok po kroku wraz z wyjaśnieniem. Na przykład BARG zaleca, aby jeśli analityk stosuje testowanie hipotez bayesowskich, raport zawierał nie tylko czynnik Bayesa, ale także minimalne prawdopodobieństwo wcześniejszego modelu, aby prawdopodobieństwo późniejszego modelu przekroczyło kryterium decyzyjne.

Ocena wartości zerowych parametrów

Kruschke zaproponował procedurę decyzyjną do oceny wartości zerowych parametrów, opartą na niepewności późniejszego oszacowania parametru. Podejście to kontrastuje z testowaniem hipotez bayesowskich jako porównaniem modeli.

Dane porządkowe

Liddell i Kruschke wykazali, że powszechna praktyka traktowania danych porządkowych (takich jak subiektywne oceny) tak, jakby były wartościami metrycznymi, może systematycznie prowadzić do błędów w interpretacji, a nawet do odwrócenia średnich. Problemy rozwiązano, traktując dane porządkowe za pomocą modeli porządkowych, w szczególności uporządkowanego modelu probitowego. Techniki częstości mogą również wykorzystywać uporządkowane modele probitowe, ale autorzy preferowali techniki bayesowskie ze względu na ich solidność.

Modele uczenia się

Przegląd modeli uważnego uczenia się Kruschkego do 2010 roku znajduje się w odnośniku. To odniesienie podsumowuje liczne ustalenia z ludzkiego uczenia się, które sugerują uważne uczenie się. To odniesienie podsumowuje również serię modeli uczenia się Kruschkego w ramach ogólnych ram.

Wymiarowość w sieciach z propagacją wsteczną

propagacji wstecznej są rodzajem modelu koneksjonistycznego, leżącego u podstaw głębokich sieci neuronowych. Wczesna praca Kruschke z sieciami propagacji wstecznej stworzyła algorytmy rozszerzania lub zmniejszania wymiarowości warstw ukrytych w sieci, wpływając w ten sposób na sposób uogólnienia sieci z przypadków uczących do przypadków testowych. Algorytmy poprawiły również szybkość uczenia się.

Modele oparte na przykładach i wyuczona uwaga

Model uczenia asocjacyjnego ALCOVE wykorzystywał opadanie gradientu w przypadku błędu, tak jak w sieciach propagacji wstecznej, aby dowiedzieć się, na jakie wymiary bodźca należy zwrócić uwagę, a które zignorować. Model ALCOVE wywodzi się z modelu uogólnionego kontekstu RM Nosofsky'ego . Modele te matematycznie reprezentują bodźce w wielowymiarowej przestrzeni w oparciu o postrzegane przez człowieka wymiary (takie jak kolor, rozmiar itp.) i zakładają, że przykłady treningowe są przechowywane w pamięci jako kompletne wzorce (tj. ). Model ALCOVE jest szkolony za pomocą par wejście-wyjście i stopniowo kojarzy wzorce z wyuczonymi wynikami, jednocześnie przenosząc uwagę na odpowiednie wymiary i odchodząc od wymiarów nieistotnych.

Udoskonalenie modelu ALCOVE, nazwanego RASHNL, dostarczyło matematycznie spójnego mechanizmu opadania gradientu z uwagą o ograniczonej pojemności. Model RASHNL zakładał, że uwaga zmienia się szybko, gdy prezentowany jest bodziec, podczas gdy uczenie się uwagi w różnych próbach jest bardziej stopniowe.

Modele te zostały dopasowane do danych empirycznych z licznych eksperymentów uczenia się na ludziach i dostarczyły dobrych opisów względnych trudności w uczeniu się różnych typów skojarzeń oraz dokładności poszczególnych bodźców podczas treningu i uogólniania. Modele te nie mogą wyjaśnić wszystkich aspektów uczenia się; na przykład potrzebny był dodatkowy mechanizm, aby uwzględnić szybkość uczenia się przez ludzi przesunięcia odwrotnego (tj. to, co było „A”, jest teraz „B” i vice versa).

Efekt podkreślenia

Kiedy ludzie nauczą się kategoryzować kombinacje dyskretnych cech sukcesywnie w trakcie sesji szkoleniowej, będą mieli tendencję do uczenia się o charakterystycznych cechach elementów, których nauczyli się później, zamiast uczyć się o ich pełnej kombinacji cech. Ta uwaga zwracana na charakterystyczne cechy przedmiotów, których nauczyli się później, nazywana jest „efektem podkreślania” i wywodzi się z wcześniejszego odkrycia znanego jako „efekt odwrotnej stawki podstawowej”.

Kruschke przeprowadził obszerną serię nowatorskich eksperymentów edukacyjnych z udziałem ludzi i opracował dwa modele koneksjonistyczne, aby uwzględnić wyniki. Model ADIT nauczył się zwracać uwagę na charakterystyczne cechy, a model EXIT wykorzystywał szybkie zmiany uwagi w każdej próbie. Kanoniczny eksperyment wyróżniania i przegląd wyników przedstawiono w odnośniku.

Hybrydowe modele reprezentacji reguł lub funkcji z wyjątkami

Ludzie mogą nauczyć się klasyfikować bodźce zgodnie z zasadami, takimi jak „pojemnik na płyny, który jest szerszy niż wysoki, nazywa się miską”, wraz z wyjątkami od reguły, takimi jak „chyba że to ten konkretny przypadek nazywa się kubkiem” . Seria eksperymentów wykazała, że ​​ludzie mają tendencję do klasyfikowania nowych przedmiotów, które są stosunkowo bliskie wyjątkowemu przypadkowi, zgodnie z regułą bardziej, niż można by przewidzieć na podstawie modeli opartych na przykładach. Aby uwzględnić dane, Erickson i Kruschke opracowali modele hybrydowe, które przeniosły uwagę między reprezentacją opartą na regułach a reprezentacją opartą na przykładach.

Ludzie mogą również nauczyć się ciągłych relacji między zmiennymi, zwanych funkcjami, takich jak „wysokość strony jest około 1,5 razy większa od jej szerokości”. Kiedy ludzie są szkoleni z przykładami funkcji, które mają wyjątkowe przypadki, dane są uwzględniane przez modele hybrydowe, które łączą lokalnie obowiązujące reguły funkcjonalne.

Bayesowskie modele uczenia się

Kruschke zbadał również bayesowskie modele wyników uczenia się ludzi, do których odnosiły się jego modele koneksjonistyczne. Efekty uczenia się sekwencyjnego lub sukcesywnego (takie jak wspomniane powyżej podkreślanie) mogą być szczególnie trudne w przypadku modeli bayesowskich, które zazwyczaj zakładają niezależność od kolejności. Zamiast zakładać, że cały system uczenia się jest globalnie bayesowski, Kruschke opracował modele, w których warstwy systemu są lokalnie bayesowskie. To „lokalnie bayesowskie uczenie się” odpowiadało za kombinacje zjawisk, które są trudne dla niebayesowskich modeli uczenia się lub dla globalnie bayesowskich modeli uczenia się.

Kolejną zaletą reprezentacji bayesowskich jest to, że z natury reprezentują one niepewność wartości parametrów, w przeciwieństwie do typowych modeli koneksjonistycznych, które zapisują tylko jedną wartość dla każdego parametru. Reprezentacja niepewności może być wykorzystana do kierowania aktywnym uczeniem się, w którym uczeń decyduje, które przypadki będą najbardziej przydatne do nauczenia się w następnej kolejności.

Kariera

Kruschke dołączył do wydziału Wydziału Nauk Psychologicznych i Mózgu na Indiana University Bloomington jako wykładowca w 1989 r. Pozostał na IU do przejścia na emeryturę jako emerytowany profesor proboszcz w 2022 r.

Edukacja

Kruschke uzyskał tytuł licencjata z matematyki z wysokim wyróżnieniem w dziedzinie ogólnego stypendium na Uniwersytecie Kalifornijskim w Berkeley w 1983 r. W 1990 r. uzyskał stopień doktora. w psychologii również z UC Berkeley.

Kruschke uczestniczył w letnim programie naukowym 1978 w The Thacher School w Ojai w Kalifornii, który koncentrował się na astrofizyce i mechanice nieba. Uczęszczał do letniej szkoły Connectionist Models 1988 na Carnegie Mellon University.

Nagrody

Linki zewnętrzne