Proces Dirichleta
W teorii prawdopodobieństwa procesy Dirichleta (po rozkładzie związanym z Peterem Gustavem Lejeune Dirichletem ) są rodziną procesów stochastycznych , których realizacjami są rozkłady prawdopodobieństwa . Innymi słowy, proces Dirichleta jest rozkładem prawdopodobieństwa, którego zakres sam w sobie jest zbiorem rozkładów prawdopodobieństwa. Jest często używany we wnioskowaniu bayesowskim do opisania wcześniejszej wiedzy na temat rozkładu zmiennych losowych - jak prawdopodobne jest, że zmienne losowe są dystrybuowane zgodnie z takim lub innym określonym rozkładem.
Na przykład worek 100 rzeczywistych kostek jest losową funkcją masy prawdopodobieństwa (random pmf) - aby pobrać próbkę tego losowego pmf, wkładasz rękę do worka i wyciągasz kostkę, czyli losujesz pmf. Torebka z kośćmi wyprodukowana przy użyciu prymitywnego procesu 100 lat temu prawdopodobnie będzie miała prawdopodobieństwo znacznie odbiegające od jednolitego pmf, podczas gdy torebka z najnowocześniejszymi kośćmi używanymi przez kasyna w Las Vegas może mieć ledwo zauważalne niedoskonałości. Możemy modelować losowość pmfs za pomocą rozkładu Dirichleta.
Proces Dirichleta jest określony przez rozkład bazowy rzeczywistą zwaną stężenia ( znanym również jako parametr skalowania). Rozkład bazowy jest wartością oczekiwaną procesu, tj. proces Dirichleta rysuje rozkłady „wokół” rozkładu podstawowego, tak jak rozkład normalny rysuje liczby rzeczywiste wokół swojej średniej. Jednak nawet jeśli rozkład bazowy jest ciągły , rozkłady wyprowadzone z procesu Dirichleta są prawie na pewno dyskretne . Parametr skalowania dyskretyzacja: w granicy , wszystkie realizacje są skoncentrowane na jednej wartości, podczas gdy w granicy realizacje stają się ciągłe. Pomiędzy tymi dwoma skrajnościami realizacje są dyskretnymi rozkładami z mniejszą koncentracją w wzrostu.
Proces Dirichleta można również postrzegać jako nieskończenie wymiarowe uogólnienie rozkładu Dirichleta . W ten sam sposób, w jaki rozkład Dirichleta jest koniugatem a priori dla rozkładu kategorycznego , proces Dirichleta jest koniugatem a priori dla nieskończonych, nieparametrycznych rozkładów dyskretnych. Szczególnie ważnym zastosowaniem procesów Dirichleta jest prawdopodobieństwa a priori w modelach nieskończonej mieszaniny .
Proces Dirichleta został formalnie wprowadzony przez Thomasa Fergusona w 1973 roku. Od tego czasu jest stosowany w eksploracji danych i uczeniu maszynowym , między innymi w przetwarzaniu języka naturalnego , wizji komputerowej i bioinformatyce .
Jednym z obszarów zastosowań, w którym Dirichlet okazał się szczególnie przydatny, jest modelowanie rozmieszczenia słów w dokumentach tekstowych. Jeśli mamy słownik zawierający k możliwych słów, to konkretny dokument może być reprezentowany przez pmf o długości k, utworzony przez normalizację empirycznej częstości jego słów. Grupa dokumentów tworzy kolekcję pmf i możemy dopasować rozkład Dirichleta, aby uchwycić zmienność tych pmf. Różne rozkłady Dirichleta mogą być używane do modelowania dokumentów różnych autorów lub dokumentów na różne tematy.
Wstęp
Procesy Dirichleta są zwykle używane podczas modelowania danych, które mają tendencję do powtarzania poprzednich wartości w tak zwany sposób „bogaci stają się bogatsi”. generowanie wartości można symulować za pomocą
- Wejście: prawdopodobieństwa zwany rozkładem bazowym), ( liczba rzeczywista zwana parametrem skalowania )
- Dla H
a) Z prawdopodobieństwem narysuj z prawdopodobieństwem } b) Z prawdopodobieństwem zestaw , gdzie to liczba poprzednich obserwacji . (Formalnie gdzie oznacza liczbę elementów w zbiorze.)
Jednocześnie innym powszechnym modelem danych jest zakładanie, że obserwacje są niezależne i mają identyczny rozkład (iid) zgodnie z pewna (losowa) dystrybucja . . Celem wprowadzenia procesów Dirichleta jest możliwość opisania procedury opisanej powyżej w tym modelu iid.
Obserwacje w algorytmie nie są , wziąć uwagę poprzednie wyniki Są one jednak do wymiany . Fakt ten można wykazać, obliczając łączny rozkład prawdopodobieństwa obserwacji i zauważając, że wynikowy wzór zależy tylko od tego, które i ile mają powtórzeń. Ze względu na tę wymienialność twierdzenie de Finettiego o reprezentacji implikuje, że obserwacje są warunkowo niezależne , biorąc pod uwagę (utajony) rozkład . Ta i ma rozkład. Ta dystrybucja (nad dystrybucjami) nazywana jest procesem Dirichleta ( ). Podsumowując, oznacza to, że otrzymujemy procedurę równoważną powyższemu algorytmowi:
- Narysuj rozkład z
- obserwacje od _
W praktyce jednak narysowanie konkretnego rozkładu , ponieważ jego specyfikacja wymaga nieskończonej ilości informacji. Jest to powszechne zjawisko w kontekście bayesowskiej statystyki nieparametrycznej, gdzie typowym zadaniem jest nauczenie się rozkładów na przestrzeniach funkcyjnych, które obejmują efektywnie nieskończenie wiele parametrów. Kluczowym spostrzeżeniem jest to, że w wielu zastosowaniach rozkłady nieskończenie wymiarowe pojawiają się jedynie jako pośrednie narzędzie obliczeniowe i nie są wymagane ani do wstępnej specyfikacji wcześniejszych przekonań, ani do sformułowania ostatecznego wniosku.
Definicja formalna
Mając mierzalny zbiór S , podstawowy rozkład prawdopodobieństwa H i dodatnią liczbę rzeczywistą Dirichleta wynosi proces stochastyczny , którego przykładowa ścieżka (lub realizacja , tj. nieskończona sekwencja losowych zmiennych losowych wylosowanych z procesu) jest rozkładem prawdopodobieństwa po S , tak że zachodzi następująca zasada. Dla dowolnego mierzalnego skończonego podziału S , oznaczonego } ,
gdzie \ oznacza rozkład Dirichleta notacja oznacza, że zmienna losowa rozkład
Alternatywne poglądy
Istnieje kilka równoważnych poglądów na proces Dirichleta. Oprócz powyższej formalnej definicji, proces Dirichleta można zdefiniować pośrednio za pomocą twierdzenia de Finettiego, jak opisano w pierwszej sekcji; jest to często nazywane procesem chińskiej restauracji . Trzecią alternatywą jest proces łamania kija , który konstruktywnie definiuje proces Dirichleta, zapisując rozkład pobrany z procesu jako = podstawowego , to funkcja wskaźnika wyśrodkowana na (zero wszędzie oprócz ) i są definiowane przez rekurencyjny schemat, który wielokrotnie pobiera próbki z rozkładu beta .
Proces chińskiej restauracji
Szeroko stosowana metafora procesu Dirichleta opiera się na tak zwanym procesie chińskiej restauracji . Metafora brzmi następująco:
Wyobraź sobie chińską restaurację, do której wchodzą klienci. Nowy klient siada przy stole z prawdopodobieństwem proporcjonalnym do liczby klientów, którzy już przy nim siedzą. nowy stół z prawdopodobieństwem proporcjonalnym do parametru . Po wprowadzeniu nieskończenie wielu klientów otrzymuje się rozkład prawdopodobieństwa na nieskończenie wiele stołów do wyboru. Ten rozkład prawdopodobieństwa w tabelach jest losową próbką prawdopodobieństw obserwacji pobranych z procesu Dirichleta z .
z miary podstawowej rozkład w przestrzeni próbek losową próbką procesu Dirichleta. Proces chińskiej restauracji jest powiązany ze schematem pobierania próbek Pólya urn , który daje próbki ze skończonych rozkładów Dirichleta.
Ponieważ klienci siedzą przy stole z prawdopodobieństwem proporcjonalnym do liczby klientów już siedzących przy stole, można wywnioskować dwie właściwości DP:
- Proces Dirichleta wykazuje właściwość samowzmacniania: im częściej dana wartość była próbkowana w przeszłości, tym bardziej prawdopodobne jest, że zostanie ona ponownie pobrana.
- Nawet jeśli jest rozkładem na zbiorze , istnieje niezerowe prawdopodobieństwo, że dwie próbki będą miały dokładnie taką samą wartość, ponieważ masa prawdopodobieństwa będzie koncentrować się na niewielkiej liczbie tabel
Proces łamania kija
Trzecim podejściem do procesu Dirichleta jest tak zwany pogląd na proces łamania kija. Koncepcyjnie obejmuje to wielokrotne odrywanie i odrzucanie losowej frakcji (próbkowanej z rozkładu Beta) „kija”, który ma początkowo długość 1. Pamiętaj, że losowania z procesu Dirichleta to rozkłady w Jak wspomniano wcześniej, narysowany rozkład jest dyskretny z prawdopodobieństwem 1. W widoku procesu łamania kija jawnie używamy dyskretności i podajemy funkcję masy prawdopodobieństwa tego (losowego) dyskretnego rozkładu jako:
gdzie jest funkcją wskaźnika , która ma wartość zero wszędzie, z wyjątkiem . Ponieważ ten rozkład sam w sobie jest losowy, jego funkcja masy jest parametryzowana przez dwa zestawy zmiennych losowych: lokalizacje i odpowiadające im prawdopodobieństwa . Poniżej przedstawiamy bez dowodu, czym są te zmienne losowe.
Lokalizacje zgodnie z podstawowym rozkładem procesu Dirichleta Prawdopodobieństwa są podane przez procedurę przypominającą łamanie patyczka o jednostkowej długości (stąd nazwa):
gdzie są zmiennymi losowymi o rozkładzie beta . do „łamania kija” można dostrzec, biorąc pod uwagę patyka. Zaczynamy od drążka o długości jednostkowej i na każdym kroku odłamujemy część pozostałego drążka zgodnie z i przypisujemy ten odłamany kawałek do . Formułę można zrozumieć, zauważając, że po przypisaniu pierwszych k - 1 długość pozostałej części drążka wynosi i ten kawałek jest łamany zgodnie z i zostaje przypisany do .
mniejszy , tym mniej kija pozostanie dla kolejnych wartości (średnio), dając bardziej skoncentrowane rozkłady.
Proces łamania pałeczek jest podobny do konstrukcji, w której pobiera się sekwencyjnie próbki z krańcowych rozkładów beta w celu wygenerowania próbki z rozkładu Dirichleta . Zobacz dowód.
Schemat urn Pólya
Jeszcze innym sposobem wizualizacji procesu Dirichleta i procesu chińskiej restauracji jest zmodyfikowany schemat urny Pólyi, czasami nazywany schematem próbkowania Blackwella-MacQueena . Wyobraź sobie że zaczynamy od urny wypełnionej kulkami. Następnie postępujemy następująco:
- Za każdym razem, gdy potrzebujemy obserwacji, losujemy kulę z urny.
- Jeśli kula jest czarna, jednolicie generujemy nowy (nie czarny) kolor, oznaczamy nową kulę tym kolorem, wrzucamy nową kulę do urny razem z wylosowaną kulą i zwracamy wygenerowany kolor.
- W przeciwnym razie oznacz nową kulę kolorem kuli, którą wylosowaliśmy, wrzuć nową kulę do urny razem z wylosowaną kulą i zwróć kolor, który zaobserwowaliśmy.
Wynikowy rozkład według kolorów jest taki sam, jak rozkład na stołach w chińskiej restauracji. Ponadto, gdy narysujemy czarną kulę, jeśli zamiast generować nowy kolor, zamiast tego wybierzemy losową wartość z podstawowego rozkładu tej wartości do oznaczenia nowej piłki, wynikowy rozkład na etykietach będzie H. {\ taki sam jak rozkład po wartościach w procesie Dirichleta.
Użyj jako wcześniejszej dystrybucji
Proces Dirichleta można wykorzystać jako rozkład a priori do oszacowania rozkładu prawdopodobieństwa, który generuje dane. W tej części zajmiemy się modelem
Rozkład Procesu Dirichleta spełnia a priori koniugację , konsystencję a posteriori i twierdzenie Bernsteina – von Misesa .
Uprzedni związek małżeński
W tym modelu późniejsza dystrybucja jest ponownie procesem Dirichleta. Oznacza to, że proces Dirichleta jest koniugatem poprzedzającym dla tego modelu. Dystrybucja tylna jest dana przez
gdzie jest zdefiniowane poniżej.
Konsystencja tylna
Jeśli przyjmiemy częsty pogląd na prawdopodobieństwo, wierzymy, że istnieje prawdziwy rozkład prawdopodobieństwa wygenerował dane. okazuje się, że proces Dirichleta jest spójny w słabej topologii , co oznacza, że dla każdego słabego sąsiedztwa z zbiega się późniejsze prawdopodobieństwo do .
Twierdzenie Bernsteina-Von Misesa
Aby zinterpretować wiarygodne zbiory jako zbiory ufności, potrzebne jest twierdzenie Bernsteina-von Misesa . W przypadku procesu Dirichleta porównujemy rozkład a posteriori z procesem empirycznym. . Załóżmy, że jest klasą -Donsker, tj.
dla jakiegoś mostka Browna . Załóżmy również, że istnieje funkcja taka, że , że prawie na pewno
Oznacza to, że konstruowane przez ciebie wiarygodne zbiory są asymptotycznymi zbiorami ufności, a wnioskowanie bayesowskie oparte na procesie Dirichleta jest również asymptotycznie poprawnym wnioskowaniem częstościowym.
Zastosowanie w modelach mieszanin Dirichleta
Aby zrozumieć, czym są procesy Dirichleta i jaki problem rozwiązują, rozważymy przykład grupowania danych . Powszechną sytuacją jest zakładanie, że punkty danych są rozmieszczone w sposób hierarchiczny, gdzie każdy punkt danych należy do (losowo wybranego) klastra, a członkowie klastra są dalej losowo dystrybuowani w ramach tego klastra.
Przykład 1
Na przykład możemy być zainteresowani tym, jak ludzie będą głosować w nadchodzących wyborach. Rozsądnym modelem dla tej sytuacji może być sklasyfikowanie każdego wyborcy jako liberała, konserwatysty lub umiarkowanego, a następnie modelowanie zdarzenia, w którym wyborca mówi „tak” na dowolne pytanie, jako zmiennej losowej Bernoulliego z prawdopodobieństwem zależnym od tego, który klaster polityczny oni należą do. Przyglądając się, jak głosowano w poprzednich latach nad podobnymi aktami prawnymi, można było dopasować model prognostyczny za pomocą prostego algorytmu grupowania, takiego jak k-średnie . Algorytm ten wymaga jednak wcześniejszej znajomości liczby klastrów, które wygenerowały dane. W wielu sytuacjach nie jest możliwe określenie tego z wyprzedzeniem, a nawet jeśli możemy rozsądnie założyć liczbę klastrów, nadal chcielibyśmy mieć możliwość sprawdzenia tego założenia. Na przykład w powyższym przykładzie głosowania podział na liberalnych, konserwatywnych i umiarkowanych może nie być wystarczająco precyzyjny; atrybuty, takie jak religia, klasa lub rasa, mogą również mieć kluczowe znaczenie dla modelowania zachowań wyborców, co skutkuje większą liczbą skupień w modelu.
Przykład 2
Jako inny przykład, możemy być zainteresowani modelowaniem prędkości galaktyk za pomocą prostego modelu zakładając, że prędkości są skupione, na przykład zakładając, że każda prędkość ma rozkład normalny , gdzie ta obserwacja należy do gromady galaktyk z wspólna prędkość oczekiwana. W tym przypadku nie jest oczywiste, jak określić a priori, ile klastrów (o wspólnych prędkościach) powinno być, a każdy model tego byłby wysoce podejrzany i powinien zostać sprawdzony z danymi. Używając procesu Dirichleta przed rozkładem klastrów, omijamy potrzebę wyraźnego określenia z wyprzedzeniem, ile jest klastrów, chociaż parametr koncentracji nadal kontroluje to w sposób dorozumiany.
Rozważymy ten przykład bardziej szczegółowo. Pierwszym naiwnym modelem że istnieją skupiska prędkości o rozkładzie normalnym ze wspólną wariancją Oznaczając zdarzenie, że obserwacja jest w klastrze jako th, zapisać model jako:
, że zakładamy, że dane należą do klastrów ze średnimi i że jest nieznany) ) wcześniejsze prawdopodobieństwo punktu danych należącego do . Zakładamy, że nie mamy żadnych początkowych informacji wyróżniających klastry, co jest przechwytywane przez symetryczny wcześniejszy . Tutaj oznacza rozkład Dirichleta i oznacza wektor o długości, którym każdy element wynosi 1. i identyczne wcześniejsze rozkłady skupienia , gdzie być dowolny rozkład parametryczny z parametrami oznaczonymi jako Hiperparametry i są uważane za znane stałe stałe, wybrane tak, aby odzwierciedlały nasze wcześniejsze przekonania Aby zrozumieć związek z a priori procesu Dirichleta, przepisujemy ten model w równoważnej, ale bardziej sugestywnej formie:
Zamiast wyobrażać sobie, że każdy punkt danych jest najpierw przypisywany do klastra, a następnie rysowany z rozkładu powiązanego z tym skupieniem, myślimy teraz o każdej obserwacji powiązanej z parametrem z jakiegoś dyskretnego rozkładu na . Oznacza to, że teraz traktujemy rozkład losowy jako losowy, a nasze wcześniejsze informacje włączane do modelu przez dystrybucja w dystrybucjach .
Chcielibyśmy teraz rozszerzyć ten model, aby działał bez wstępnego określania stałej . Matematycznie oznacza to, że chcielibyśmy wybrać losowy wcześniejszy rozkład gdzie wartości klastrów oznaczają, że zgodnie z rozkładem jest symetryczne względem nieskończonego zbioru klastrów. Dokładnie to osiąga model:
Mając to pod ręką, możemy lepiej zrozumieć zalety obliczeniowe procesu Dirichleta. chcemy wyciągnąć z modelu naiwnego z dokładnie . Prostym algorytmem do wykonania tego narysowanie wartości z dystrybucji z a następnie dla każdej obserwacji próbkuj klaster z prawdopodobieństwem wartością obserwacji zgodnie z . Łatwo zauważyć, że ten algorytm nie działa w przypadku, gdy dopuszczamy nieskończone klastry, ponieważ wymagałoby to próbkowania nieskończonego parametru wymiarowego π { . Jednak nadal możliwe jest próbkowanie obserwacji . Można np. wykorzystać opisaną poniżej reprezentację restauracji chińskiej i obliczyć prawdopodobieństwo powstania klastrów używanych i utworzenia nowego klastra. Pozwala to uniknąć konieczności jawnego określania . π Inne rozwiązania opierają się na obcinaniu klastrów: wprowadza się (wysoką) górną granicę rzeczywistej liczby klastrów, a numery klastrów wyższe niż dolna granica są traktowane jako jeden klaster.
na podstawie zaobserwowanych danych znalezienie późniejszego rozkładu po prawdopodobieństwach skupień i związanych z nimi średnich. W przypadku nieskończenie wymiarowym jest oczywiście niemożliwe wyraźne zapisanie a posteriori. Możliwe jest jednak pobranie próbek z tego tylnego odcinka za pomocą zmodyfikowanego próbnika Gibbsa . Jest to decydujący fakt, który sprawia, że proces Dirichleta jest użyteczny do wnioskowania .
Zastosowania procesu Dirichleta
Procesy Dirichleta są często używane w statystyce nieparametrycznej Bayesa . „Nieparametryczny” nie oznacza tutaj modelu bez parametrów, a raczej model, w którym reprezentacje rosną w miarę obserwowania większej ilości danych. Bayesowskie modele nieparametryczne zyskały znaczną popularność w dziedzinie uczenia maszynowego ze względu na wspomnianą powyżej elastyczność, zwłaszcza w przypadku uczenia bez nadzoru . W nieparametrycznym modelu bayesowskim rozkłady wcześniejsze i późniejsze nie są rozkładami parametrycznymi, ale procesami stochastycznymi. Fakt, że rozkład Dirichleta jest rozkładem prawdopodobieństwa na simpleksie zbiorów liczb nieujemnych, których suma wynosi jeden, czyni go dobrym kandydatem do modelowania rozkładów względem rozkładów lub rozkładów względem funkcji. Ponadto nieparametryczny charakter tego modelu sprawia, że jest on idealnym kandydatem do rozwiązywania problemów związanych z klastrami, w przypadku których wyraźna liczba klastrów jest z góry nieznana. Ponadto proces Dirichleta został również wykorzystany do opracowania mieszanki modeli eksperckich w kontekście algorytmów uczenia nadzorowanego (ustawienia regresji lub klasyfikacji). Na przykład mieszaniny ekspertów ds. procesu Gaussa, gdzie liczbę wymaganych ekspertów należy wywnioskować z danych.
Ponieważ losowania z procesu Dirichleta są dyskretne, ważnym zastosowaniem jest prawdopodobieństwo a priori w modelach nieskończonej mieszaniny . W tym przypadku zbiorem rozkładów składowych. Proces generatywny polega zatem na tym, że próbka jest pobierana z procesu Dirichleta, a dla każdego punktu danych z kolei pobierana jest wartość z tego rozkładu próbki i używana jako rozkład składowy dla tego punktu danych. Fakt, że nie ma ograniczeń co do liczby różnych składników, które można wygenerować, sprawia, że ten rodzaj modelu jest odpowiedni w przypadku, gdy liczba składników mieszaniny nie jest z góry dobrze zdefiniowana. Na przykład nieskończona mieszanina modelu Gaussa, a także powiązane modele regresji mieszaniny, np
Nieskończona natura tych modeli sprawia, że są one również wykorzystywane w aplikacjach do przetwarzania języka naturalnego , w których często pożądane jest traktowanie słownictwa jako nieskończonego, dyskretnego zbioru.
Proces Dirichleta może być również używany do testowania hipotez nieparametrycznych, tj. do opracowywania bayesowskich nieparametrycznych wersji klasycznych testów hipotez nieparametrycznych, np. testu znaków , testu sumy rang Wilcoxona , testu rang podpisanych Wilcoxona itp. Na przykład, nieparametryczne wersje bayesowskie test sumy rang Wilcoxona i test rang ze znakiem Wilcoxona zostały opracowane przy użyciu nieprecyzyjnego procesu Dirichleta , wcześniejszego procesu Dirichleta ignorancji. [ potrzebne źródło ]
Powiązane dystrybucje
- Pitmana -Yora jest uogólnieniem procesu Dirichleta w celu uwzględnienia ogonów prawa potęgowego
- Hierarchiczny proces Dirichleta rozszerza zwykły proces Dirichleta do modelowania zgrupowanych danych.
- ^ Frigyik, Bela A.; Kapila, Amol; Gupta, Maya R. „Wprowadzenie do dystrybucji Dirichleta i powiązanych procesów” (PDF) . Źródło 2 września 2021 r .
- ^ Ferguson, Thomas (1973). „Analiza bayesowska niektórych problemów nieparametrycznych” . Roczniki statystyki . 1 (2): 209–230. doi : 10.1214/aos/1176342360 . MR 0350949 .
- ^ Frigyik, Bela A.; Kapila, Amol; Gupta, Maya R. „Wprowadzenie do dystrybucji Dirichleta i powiązanych procesów” (PDF) . Źródło 2 września 2021 r .
- ^ „Proces Dirichleta i dystrybucja Dirichleta - program restauracji Polya i proces chińskiej restauracji” .
- Bibliografia _ Prosty dowód przełomowej konstrukcji procesu Dirichleta. Raport techniczny, Princeton University, Wydział Informatyki, 2010.
- ^ Aad van der Vaart , Subhashis Ghosal (2017). Podstawy Bayesowskiego wnioskowania nieparametrycznego . Wydawnictwo Uniwersytetu Cambridge. ISBN 978-0-521-87826-5 .
- ^ Sudderth, Erik (2006). Modele graficzne do wizualnego rozpoznawania i śledzenia obiektów (PDF) (doktorat). MIT Press.
-
^
Nils Lid Hjort , Chris Holmes, Peter Müller i Stephen G. Walker (2010). Nieparametryczne bayesowskie . Wydawnictwo Uniwersytetu Cambridge. ISBN 978-0-521-51346-3 .
{{ cite book }}
: CS1 maint: wiele nazwisk: lista autorów ( link ) - ^ Sotirios P. Chatzis, „A Latent Variable Gaussian Process Model with Pitman-Yor Process Priors for Multiclass Classification”, Neurocomputing, tom. 120, s. 482-489, listopad 2013 r. doi : 10.1016/j.neucom.2013.04.029
- ^ Sotirios P. Chatzis, Yiannis Demiris, „Nieparametryczne mieszanki procesów Gaussa z zachowaniem prawa potęgowego”, IEEE Transactions on Neural Networks and Learning Systems, tom. 23, nie. 12, s. 1862-1871, grudzień 2012. doi : 10.1109/TNNLS.2012.2217986
- ^ Rasmussen Carl (2000). „Model nieskończonej mieszaniny Gaussa” (PDF) . Postępy w systemach przetwarzania informacji neuronowych . 12 : 554–560.
- ^ Sotirios P. Chatzis, Dimitrios Korkinof i Yiannis Demiris, „Nieparametryczne podejście bayesowskie do uczenia się robotów przez demonstrację”, Robotics and Autonomous Systems, tom. 60, nie 6, s. 789–802, czerwiec 2012 r. doi : 10.1016/j.robot.2012.02.005
Linki zewnętrzne
- Wprowadzenie do dystrybucji Dirichleta i powiązanych procesów autorstwa Frigyika, Kapili i Gupty
- Przegląd procesów Dirichleta autorstwa Yee Whye Teh
- Strona internetowa warsztatów NIPS 2003 na temat nieparametrycznych metod bayesowskich
- Samouczek Michaela Jordana NIPS 2005: Nieparametryczne metody bayesowskie: procesy Dirichleta, procesy chińskiej restauracji i to wszystko
- Podsumowanie konstrukcji procesów Dirichleta autorstwa Petera Greena
- Artykuł Petera Greena na temat probabilistycznych modeli procesów Dirichleta z implikacjami dla modelowania i analizy statystycznej
- Samouczek UAI 2005 Zoubina Ghahramaniego dotyczący nieparametrycznych metod bayesowskich
- Oprogramowanie GIMM do przeprowadzania analizy skupień przy użyciu modeli nieskończonych mieszanin
- Zabawkowy przykład grupowania przy użyciu procesu Dirichleta. autorstwa Zhiyuana Wenga