Rozkład wielomianowy Dirichleta
Notacja | |||
---|---|---|---|
Parametry |
liczba prób (dodatnia liczba całkowita ) |
||
Wsparcie |
|
||
PMF | |||
Mieć na myśli | |||
Zmienność |
|
||
MGF |
gdzie |
||
CF |
|
||
PGF |
|
W teorii prawdopodobieństwa i statystyce rozkład wielomianowy Dirichleta to rodzina dyskretnych wielowymiarowych rozkładów prawdopodobieństwa na skończonym wsparciu nieujemnych liczb całkowitych. Jest również nazywany złożonym rozkładem wielomianowym Dirichleta ( DCM ) lub wielowymiarowym rozkładem Pólya (od nazwiska George'a Pólyi ). Jest to złożony rozkład prawdopodobieństwa , w którym wektor prawdopodobieństwa p jest rysowany z rozkładu Dirichleta z , a obserwacja pochodzi z rozkładu wielomianowego wektorem prawdopodobieństwa p i liczbą próby r . Wektor parametrów Dirichleta oddaje wcześniejsze przekonanie o sytuacji i może być postrzegany jako pseudoliczba: obserwacje każdego wyniku, które mają miejsce przed zebraniem rzeczywistych danych. Składanie odpowiada schematowi urn Pólya . Jest często spotykany w statystyce bayesowskiej , uczeniu maszynowym , empirycznych metodach Bayesa i statystyce klasycznej jako nadmiernie rozproszony rozkład wielomianowy .
Sprowadza się do rozkładu kategorycznego jako przypadek szczególny, gdy n = 1. Dowolnie dobrze przybliża również rozkład wielomianowy dla dużego α . Wielomian Dirichleta jest wielowymiarowym rozszerzeniem rozkładu beta-dwumianowego , ponieważ rozkłady wielomianowy i rozkłady Dirichleta są wielowymiarowymi wersjami odpowiednio rozkładu dwumianowego i rozkładu beta .
Specyfikacja
Wielomian Dirichleta jako rozkład złożony
Rozkład Dirichleta jest rozkładem sprzężonym z rozkładem wielomianowym. Fakt ten prowadzi do analizowalnego rozkładu związku . Dla losowego wektora kategorii liczy się , rozłożonego zgodnie z rozkładem wielomianowym , rozkład krańcowy uzyskuje się przez całkowanie na rozkładzie dla p , który można traktować jako wektor losowy następujący po rozkładzie Dirichleta:
co daje następujący wyraźny wzór:
gdzie jest zdefiniowana jako suma . Inna postać tego samego rozkładu złożonego, zapisana bardziej zwięźle w kategoriach funkcji beta , B , jest następująca:
Ta ostatnia forma podkreśla fakt, że kategorie o liczbie zerowej można pominąć w obliczeniach - jest to przydatne, gdy liczba kategorii jest bardzo duża i rzadka (np. liczba słów w dokumentach).
Zauważ, że pdf jest rozkładem Beta-dwumianowym, gdy . Można również pokazać, że zbliża się do rozkładu wielomianowego, gdy do nieskończoności. Parametr stopień nadmiernej dyspersji lub w stosunku do wielomianu. Alternatywnymi opcjami oznaczenia, można znaleźć w literaturze, są S i
Wielomian Dirichleta jako model urny
Rozkład wielomianowy Dirichleta można również uzasadnić za pomocą modelu urny dla dodatnich wartości całkowitych wektora α, znanego jako model urny Polya . Konkretnie, wyobraź urnę zawierającą kule K kolorów o numerach dla tego koloru, w których dokonywane są losowania Kiedy kula jest losowo wylosowana i obserwowana, dwie kule tego samego koloru wracają do urny. Jeśli zostanie to wykonane n razy, to prawdopodobieństwo zaobserwowania losowego wektora jest wielomianem Dirichleta z parametrami n i α. Jeśli losowania są z prostym zastępowaniem (do urny nie są dodawane żadne kule powyżej obserwowanej kuli), wówczas rozkład jest zgodny z rozkładem wielomianowym, a jeśli losowania są dokonywane bez zastępowania, rozkład jest zgodny z wielowymiarowym rozkładem hipergeometrycznym .
Nieruchomości
Chwile
Jeszcze raz niech i k to oczekiwana liczba razy wynik i obserwowany w n próbach wynosi
Macierz kowariancji jest następująca. Każdy wpis po przekątnej jest wariancją zmiennej losowej o rozkładzie dwumianowym beta, a zatem jest
Wpisy poza przekątną to kowariancje :
dla i , j różne.
Wszystkie kowariancje są ujemne, ponieważ dla ustalonego n wzrost jednego składnika wektora wielomianowego Dirichleta wymaga zmniejszenia innego składnika.
To jest dodatnio-półskończona macierz K × K rangi K - 1.
Wpisy odpowiedniej macierzy korelacji to
Wielkość próbki wypada z tego wyrażenia.
Każdy z k składników osobno ma rozkład beta-dwumianowy.
Wsparciem dla wielomianowego rozkładu Dirichleta jest zbiór
Jego liczba elementów wynosi
Notacja macierzowa
W notacji macierzowej
I
gdzie p T = transpozycja wektora wierszowego wektora kolumnowego p . Pozwalanie
- możemy napisać alternatywnie
Parametr jest znany jako korelacja „wewnątrz klasy” lub „wewnątrz klastra To właśnie ta dodatnia korelacja powoduje nadmierne rozproszenie w stosunku do rozkładu wielomianowego.
Zbiór
Jeśli
wtedy, jeśli zmienne losowe z indeksami dolnymi i oraz j zostaną usunięte z wektora i zastąpione ich sumą [ potrzebne źródło ] ,
Ta właściwość agregacji może być wykorzystana do wyprowadzenia rozkładu krańcowego .
Funkcja prawdopodobieństwa
Koncepcyjnie tworzymy N niezależnych losowań z rozkładu kategorycznego z K kategoriami. Przedstawmy losowania niezależne jako losowe zmienne kategorialne = } ile razy dana kategoria (dla wśród wszystkich zmiennych kategorialnych jako i . W takim razie mamy dwa odrębne spojrzenia na ten problem:
- Zbiór kategorialnych .
- wektorowych _ _ _
Pierwszy przypadek to zbiór zmiennych losowych określających każdy indywidualny wynik, podczas gdy drugi to zmienna określająca liczbę wyników każdej z K kategorii. Rozróżnienie jest ważne, ponieważ oba przypadki mają odpowiednio różne rozkłady prawdopodobieństwa.
Parametrem rozkładu jakościowego jest p jest prawdopodobieństwem wylosowania wartości } jest podobnie parametrem rozkładu wielomianowego . Zamiast bezpośrednio określać mu sprzężony wcześniejszy rozkład , a zatem jest on rysowany z rozkładu Dirichleta z wektorem parametrów .
Całkując na zewnątrz rozkład złożony. Jednak forma dystrybucji jest różna w zależności od przyjętego poglądu.
Dla zestawu indywidualnych wyników
Wspólna dystrybucja
, rozkład połączeń brzeżnych uzyskuje się przez całkowanie na zewnątrz :
co daje następujący wyraźny wzór:
gdzie jest funkcją gamma z .
Zwróć uwagę na brak współczynnika wielomianowego, ponieważ wzór dotyczy prawdopodobieństwa sekwencji zmiennych kategorialnych zamiast prawdopodobieństwa zliczeń w każdej kategorii.
Chociaż zmienne nie pojawiają wyraźnie w powyższym wzorze, wchodzą przez wartości. [ wymagane wyjaśnienie ]
Dystrybucja warunkowa
Inna użyteczna formuła, szczególnie w kontekście próbkowania Gibbsa , zadaje warunkowa gęstość danej zmiennej uwarunkowana wszystkimi innymi zmiennymi (które będziemy oznaczać ). Okazuje się, że ma niezwykle prostą postać:
gdzie określa liczbę zliczeń kategorii we wszystkich zmiennych innych niż .
Może być przydatne pokazanie, jak wyprowadzić ten wzór. Ogólnie rozkłady warunkowe są proporcjonalne do odpowiednich rozkładów łącznych , więc po prostu zaczynamy od powyższego wzoru na łączny rozkład wszystkich z niezależne od konkretnego pytania. Aby to zrobić, korzystamy z notacji zdefiniowanej powyżej
Korzystamy również z faktu, że
Następnie:
Ogólnie rzecz biorąc, nie ma potrzeby martwić się o stałą normalizującą w momencie wyprowadzania równań dla rozkładów warunkowych. Stała normalizująca zostanie określona jako część algorytmu próbkowania z rozkładu (patrz Rozkład jakościowy#Próbkowanie ). Kiedy jednak rozkład warunkowy zapiszemy w powyższej prostej postaci, okazuje się, że stała normalizująca przyjmuje prostą postać:
Stąd
Ta formuła jest ściśle związana z procesem chińskiej restauracji , co wynika z przyjęcia limitu jako .
W sieci bayesowskiej
W większej sieci bayesowskiej , w której występują rozkłady kategoryczne (lub tak zwane „wielomianowe”) z apriorami dystrybucji Dirichleta jako częścią większej sieci, wszystkie a priori Dirichleta można zwinąć, pod warunkiem, że jedynymi zależnymi od nich węzłami są rozkłady kategoryczne. Załamanie zachodzi dla każdego węzła dystrybucji Dirichleta oddzielnie od pozostałych i występuje niezależnie od innych węzłów, które mogą zależeć od rozkładów jakościowych. Występuje również niezależnie od tego, czy rozkłady jakościowe zależą od węzłów dodatkowych w stosunku do a priori Dirichleta (chociaż w takim przypadku te inne węzły muszą pozostać jako dodatkowe czynniki warunkujące). Zasadniczo wszystkie rozkłady jakościowe zależne od danego węzła dystrybucji Dirichleta zostają połączone w pojedynczy wspólny rozkład Dirichleta-wielomian określony powyższym wzorem. Wspólna dystrybucja zdefiniowana w ten sposób będzie zależała od rodzica(ów) zintegrowanych wcześniejszych węzłów Diricheta, jak również od dowolnego rodzica(ów) węzłów kategorialnych innych niż same wcześniejsze węzły Dirichleta.
W poniższych sekcjach omówimy różne konfiguracje powszechnie spotykane w sieciach bayesowskich. Powtarzamy gęstość prawdopodobieństwa pomocą
Wiele przeorów Dirichleta z tym samym hiperpriorem
Wyobraź sobie, że mamy następujący model hierarchiczny:
W takich przypadkach mamy wiele przeorów Diricheta, z których każdy generuje pewną liczbę kategorycznych obserwacji (być może inną liczbę dla każdego przeoru). Fakt, że wszystkie są zależne od tego samego hyperpriora, nawet jeśli jest to zmienna losowa, jak powyżej, nie ma znaczenia. Efekt zintegrowania a priori Dirichleta łączy zmienne kategoryczne dołączone do tego a priori, którego łączna dystrybucja po prostu dziedziczy wszelkie czynniki warunkujące a priori Dirichleta. Fakt, że wiele przeorów może dzielić hiperprzeor, nie ma znaczenia:
gdzie po prostu zbiorem zmiennych kategorialnych zależnych wcześniejszego .
W związku z tym warunkowy rozkład prawdopodobieństwa można zapisać w następujący sposób:
gdzie konkretnie oznacza liczbę zmiennych w zbiorze , z wyłączeniem mają wartość .
Konieczne jest policzenie tylko tych zmiennych, które mają wartość k , które są powiązane ze zmienną, o której mowa, poprzez posiadanie tego samego a priori. Nie chcemy liczyć żadnych innych zmiennych, które również mają wartość k .
Wiele przeorów Dirichleta z tym samym hiperprzeorem, z dziećmi na utrzymaniu
Teraz wyobraź sobie nieco bardziej skomplikowany model hierarchiczny w następujący sposób:
Ten model jest taki sam jak powyżej, ale dodatkowo każda ze zmiennych kategorialnych ma zależną od niej zmienną potomną. Jest to typowe dla modelu mieszanego .
Ponownie, w rozkładzie łączonym tylko zmienne kategorialne zależne od tego samego a priori są połączone w jeden wielomian Dirichleta:
Rozkład warunkowy zmiennych kategorycznych zależnych tylko od ich rodziców i przodków miałby w prostszym przypadku identyczną postać jak powyżej. ) Displaystyle i przodkowie, tacy jak ale na wszystkich innych parametrach.
Uproszczone wyrażenie na rozkład warunkowy wyprowadzono powyżej, po prostu przepisując wyrażenie na łączne prawdopodobieństwo i usuwając stałe czynniki. Stąd to samo uproszczenie miałoby zastosowanie w większym łącznym wyrażeniu prawdopodobieństwa, takim jak to w tym modelu, złożonym z gęstości wielomianowych Dirichleta oraz czynników dla wielu innych zmiennych losowych zależnych od wartości zmiennych kategorycznych.
Daje to:
Tutaj gęstość prawdopodobieństwa bezpośrednio. Aby wykonać losowe próbkowanie w ciągu obliczylibyśmy nieznormalizowane prawdopodobieństwa dla wszystkich dla przy użyciu powyższego wzoru, a następnie znormalizowali je i postępowali jak z re normalny przy użyciu algorytmu opisanego w artykule dotyczącym rozkładu jakościowego .
Mówiąc poprawnie, dodatkowy czynnik, który pojawia się w rozkładzie warunkowym, pochodzi nie ze specyfikacji modelu, ale bezpośrednio z rozkładu łącznego. To rozróżnienie jest ważne przy rozważaniu modeli, w których dany węzeł z rodzicem Dirichlet-prior ma wiele zależnych dzieci, szczególnie gdy te dzieci są zależne od siebie nawzajem (np. jeśli mają wspólnego rodzica, który się załamał). Omówiono to bardziej poniżej.
Wiele przeorów Dirichleta ze zmianą wcześniejszego członkostwa
Teraz wyobraź sobie, że mamy następujący model hierarchiczny:
Tutaj mamy trudną sytuację, w której mamy wiele a priori Dirichleta jak poprzednio i zestaw zależnych zmiennych kategorycznych, ale związek między a priori a zmiennymi zależnymi nie jest ustalony, jak wcześniej. Zamiast tego, wybór którego przed użyciem zależy od innej losowej zmiennej kategorycznej. Dzieje się tak na przykład w modelach tematycznych i rzeczywiście nazwy powyższych zmiennych mają odpowiadać nazwom w ukrytej alokacji Dirichleta . tym przypadku zestaw jest zbiorem słów, z których każdy jest losowany z jednego z możliwych tematów, gdzie każdy temat jest przeorem Dirichleta nad słownictwem K { w temacie. Jednak przynależność do tematu danego słowa nie jest ustalona; jest raczej określany na podstawie zestawu ukrytych zmiennych. . Na słowo przypada jedna utajona zmienna, zmienna kategorialna określająca temat, do którego należy słowo
W tym przypadku wszystkie zmienne zależne od danego przeora są ze sobą powiązane (tj. skorelowane ) w grupie, tak jak poprzednio — konkretnie wszystkie słowa należące do danego tematu są powiązane. W tym przypadku jednak przynależność do grupy zmienia się, ponieważ słowa nie są przypisane do danego tematu, ale temat zależy od wartości ukrytej zmiennej związanej ze słowem. Jednak definicja gęstości wielomianowej Dirichleta nie zależy tak naprawdę od liczby zmiennych kategorialnych w grupie (tj. liczby słów w dokumencie wygenerowanym z danego tematu), a jedynie od liczby zmiennych w grupa ma określoną wartość (tzn. spośród wszystkich tokenów słów wygenerowanych z danego tematu, ile z nich to dane słowo). Dlatego nadal możemy napisać wyraźny wzór na łączną dystrybucję:
Tutaj używamy notacji do liczby tokenów słownych, których wartością jest symbol słowny które należą do k .
Rozkład warunkowy ma nadal tę samą postać:
Tutaj znowu tylko zmienne kategoryczne dla słów należących do danego tematu są powiązane (nawet jeśli to powiązanie będzie zależeć od przypisań zmiennych ukrytych), a zatem liczba słów musi dotyczyć tylko słów wygenerowanych przez dany temat. Stąd symbol liczbą tokenów słów mających słowa , ale tylko tych , z wyłączeniem samego słowa, którego dystrybucja jest opisana.
(Powodem, dla którego wykluczenie samego słowa jest konieczne i dlaczego w ogóle ma to sens, jest to, że w kontekście próbkowania Gibbsa wielokrotnie ponownie próbkujemy wartości każdej zmiennej losowej, po przejrzeniu i próbkowaniu wszystkich poprzednich zmiennych. Stąd zmienna będzie już miała wartość i musimy wykluczyć tę istniejącą wartość z różnych zliczeń, z których korzystamy).
Połączony przykład: modele tematyczne LDA
Teraz pokażemy, jak połączyć niektóre z powyższych scenariuszy, aby zademonstrować, jak Gibbs próbkuje model świata rzeczywistego, w szczególności wygładzony utajony model tematu alokacji Dirichleta (LDA) .
Wzór jest następujący:
Zasadniczo łączymy poprzednie trzy scenariusze: mamy zmienne kategoryczne zależne od wielu a priori współdzielących hiperprior; mamy zmienne kategoryczne z zależnymi dziećmi ( utajone tożsamości tematu zmiennej ); i mamy zmienne kategoryczne ze zmiennym przynależnością do wielu a priori dzielących hiperprior. W standardowym modelu LDA słowa są całkowicie przestrzegane, a zatem nigdy nie musimy ich ponownie próbkować. (Jednak próbkowanie Gibbsa byłoby równie możliwe, gdyby zaobserwowano tylko niektóre słowa lub żadne. W takim przypadku chcielibyśmy zainicjować rozkład po słowach w jakiś rozsądny sposób — np. z wyjścia jakiegoś procesu, który generuje zdania , na przykład tłumaczenia maszynowego — aby wynikowe późniejsze rozkłady zmiennych ukrytych miały jakikolwiek sens).
Korzystając z powyższych wzorów, możemy bezpośrednio zapisać prawdopodobieństwa warunkowe:
Tutaj zdefiniowaliśmy liczbę bardziej wyraźnie, aby wyraźnie oddzielić liczbę słów i liczbę tematów:
Podobnie jak w powyższym scenariuszu ze zmiennymi kategorialnymi z zależnymi dziećmi, prawdopodobieństwo warunkowe tych zależnych dzieci pojawia się w definicji prawdopodobieństwa warunkowego rodzica. W tym przypadku każda utajona zmienna ma tylko jedno zależne słowo potomne, więc pojawia się tylko jeden taki termin. (Gdyby było wiele dzieci na utrzymaniu, wszystkie musiałyby wystąpić w warunkowym prawdopodobieństwie rodzica, niezależnie od tego, czy zachodzi nakładanie się różnych rodziców i tych samych dzieci, tj. niezależnie od tego, czy dzieci pozostające na utrzymaniu danego rodzica mają również innych rodziców. W w przypadku, gdy dziecko ma wielu rodziców, prawdopodobieństwo warunkowe dla tego dziecka pojawia się w definicji prawdopodobieństwa warunkowego każdego z jego rodziców).
Powyższa definicja określa tylko nieznormalizowane prawdopodobieństwo warunkowe słów, podczas gdy prawdopodobieństwo warunkowe tematu wymaga rzeczywistego ( tj. znormalizowanego) prawdopodobieństwa. Dlatego musimy znormalizować, sumując wszystkie symbole słowne:
Gdzie
Warto również szczegółowo omówić inny punkt, który dotyczy drugiego czynnika powyżej w prawdopodobieństwie warunkowym. Pamiętaj, że ogólnie rozkład warunkowy wywodzi się z rozkładu łącznego i upraszcza się, usuwając wyrazy niezależne od dziedziny warunku (część po lewej stronie pionowego słupka). Kiedy węzeł we wspólnym rozkładzie będzie jeden lub na . Zwykle dla każdego węzła zależnego istnieje jeden czynnik i ma on taką samą funkcję gęstości, jak rozkład pojawiający się w definicji matematycznej. Jeśli jednak węzeł zależny ma również innego rodzica (współrzędnego rodzica), a ten współrzędny rodzic zostanie zwinięty, wtedy węzeł stanie się zależny od wszystkich innych węzłów współdzielących tego współrzędnego rodzica i zamiast wielu terminów dla każdy taki węzeł, wspólny rozkład będzie miał tylko jeden wspólny termin. Mamy tu dokładnie taką sytuację. Mimo że dziecko , to dziecko ma współrodzica rozwiedliśmy, co indukuje wielomian cały zestaw węzłów .
{\ displaystyle . Możemy przepisać wspólną dystrybucję w następujący sposób:
gdzie w zbiorze (tj. zbiór węzłów wyłączeniem z węzłów nie ma jako rodzic Stąd można go wyeliminować jako czynnik warunkujący (linia 2), co oznacza, że cały czynnik można wyeliminować z rozkładu warunkowego (linia 3).
Drugi przykład: grupowanie dokumentów Bayesa w naiwny sposób
Oto inny model, z innym zestawem problemów. Jest to implementacja nienadzorowanego naiwnego Bayesa do grupowania dokumentów. Oznacza to, że chcielibyśmy podzielić dokumenty na wiele kategorii (np. „ spam ” lub „nie-spam” lub „artykuł w czasopiśmie naukowym”, „artykuł w gazecie o finansach”, „artykuł w gazecie o polityce”, „list miłosny”) na podstawie treści tekstowych. Jednak nie znamy jeszcze właściwej kategorii jakichkolwiek dokumentów; zamiast tego chcemy pogrupować na podstawie wzajemnych podobieństw. (Na przykład zestaw artykułów naukowych będzie podobny do siebie pod względem użycia słów, ale bardzo różni się od zestawu listów miłosnych). Jest to rodzaj uczenia się bez nadzoru . (Tę samą technikę można zastosować do uczenia częściowo nadzorowanego , tj. gdy znamy prawidłową kategorię pewnej części dokumentów i chcielibyśmy wykorzystać tę wiedzę, aby pomóc w grupowaniu pozostałych dokumentów).
Wzór jest następujący:
Pod wieloma względami ten model jest bardzo podobny do opisanego powyżej modelu tematycznego LDA , ale zakłada jeden temat na dokument, a nie jeden temat na słowo, przy czym dokument składa się z mieszanki tematów. Widać to wyraźnie w powyższym modelu, który jest identyczny z modelem LDA, z wyjątkiem tego, że istnieje tylko jedna utajona zmienna na dokument zamiast jednej na słowo. Ponownie zakładamy, że obalamy wszystkie przeorów Dirichleta.
Prawdopodobieństwo warunkowe dla danego słowa jest prawie identyczne jak w przypadku LDA. Po raz kolejny wszystkie słowa wygenerowane przez tego samego przeora Dirichleta są współzależne. W tym przypadku oznacza to słowa wszystkich dokumentów opatrzonych daną etykietą — znowu może się to różnić w zależności od przypisań etykiet, ale jedyne, na czym nam zależy, to suma zliczeń. Stąd:
Gdzie
Istnieje jednak zasadnicza różnica w warunkowym rozkładzie zmiennych ukrytych dla przypisań etykiet, polegająca na tym, że dana zmienna etykiety ma wiele węzłów potomnych zamiast tylko jednego — w szczególności węzły dla wszystkich słów w dokumencie etykiety. temat czynnika, ze wspólnego równej wartości i wartość rozkładu wielomianowego Dirichleta. Co więcej, nie możemy zredukować tego łącznego rozkładu do rozkładu warunkowego na pojedynczym słowie. Możemy raczej zredukować to tylko do mniejszego łącznego rozkładu warunkowego na słowach w dokumencie dla danej etykiety, a zatem nie możemy tego uprościć, stosując powyższą sztuczkę, która daje prostą sumę oczekiwanej liczby i liczby wcześniejszej. Chociaż w rzeczywistości możliwe jest przepisanie go jako iloczyn takich indywidualnych sum, liczba czynników jest bardzo duża i nie jest wyraźnie bardziej wydajna niż bezpośrednie obliczenie prawdopodobieństwa rozkładu wielomianowego Dirichleta.
Powiązane dystrybucje
Jednowymiarowa wersja rozkładu wielomianowego Dirichleta jest znana jako rozkład beta-dwumianowy .
Rozkład wielomianowy Dirichleta ma związek z ujemnym rozkładem dwumianowym analogiczny do związku rozkładu wielomianowego z rozkładem Poissona .
Używa
Rozkład wielomianowy Dirichleta jest używany w automatycznej klasyfikacji i grupowaniu dokumentów , genetyce , ekonomii , modelowaniu walki i marketingu ilościowym.
Zobacz też
- Rozkład beta-dwumianowy
- Proces chińskiej restauracji
- Proces Dirichleta
- Uogólniony rozkład Dirichleta
- Estymator Krichevsky'ego-Trofimowa
- Ujemny rozkład wielomianowy Dirichleta
Cytaty
Źródła
- Elkan, C. (2006) Grupowanie dokumentów z przybliżeniem rodziny wykładniczej wielomianowego rozkładu złożonego Dirichleta . ICML, 289–296.
- Johnson, NL, Kotz, S. i Balakrishnan, N. (1997) Dyskretne rozkłady wielowymiarowe (tom 165). Nowy Jork: Wiley.
- Kvam, P. and Day, D. (2001) Wielowymiarowa dystrybucja Polya w modelowaniu walki. Logistyka badań marynarki wojennej, 48, 1–17.
- Madsen, RE, Kauchak, D. i Elkan, C. (2005) Modeling Word Burstiness Korzystanie z rozkładu Dirichleta . ICML, 545–552.
- Minka, T. (2003) Szacowanie rozkładu Dirichleta . Raport techniczny Microsoft Research. Zawiera kod Matlab do dopasowywania dystrybucji do danych.
- Mosimann, JE (1962) O złożonym rozkładzie wielomianowym, wielowymiarowym rozkładzie β i korelacjach między proporcjami . Biometrika, 49 (1–2), 65–82.
- Wagner, U. i Taudes, A. (1986) Wielowymiarowy wielowymiarowy model wyboru marki i częstości zakupów. Nauka o marketingu, 5 (3), 219–244.