Warstwowy ukryty model Markowa

Warstwowy . ukryty model Markowa (LHMM) to model statystyczny wywodzący się z ukrytego modelu Markowa (HMM) Warstwowy ukryty model Markowa (LHMM) składa się z N poziomów HMM, gdzie HMM na poziomie i + 1 odpowiadają symbolom obserwacji lub generatorom prawdopodobieństwa na poziomie i . Każdy poziom i LHMM składa się z K _i HMM działających równolegle.

Tło

LHMM są czasami przydatne w określonych strukturach, ponieważ mogą ułatwiać uczenie się i uogólnianie. Na przykład, chociaż w pełni połączony HMM zawsze mógłby być używany, gdyby dostępna była wystarczająca ilość danych treningowych, często przydatne jest ograniczenie modelu przez niedopuszczenie do dowolnych przejść między stanami. W ten sam sposób korzystne może być osadzenie HMM w warstwowej strukturze, która teoretycznie może nie być w stanie rozwiązać żadnych problemów, których nie może rozwiązać podstawowy HMM, ale może rozwiązać niektóre problemy wydajniej, ponieważ potrzeba mniej danych treningowych.

Warstwowy ukryty model Markowa

Warstwowy ukryty model Markowa (LHMM) składa się z $odpowiadają$ $HMM$ $gdzie$ HMM na poziomie obserwacji lub generatorom prawdopodobieństwa . Każdy poziom $działających$ $.$ z HMM równolegle

Warstwowy ukryty model Markowa

Na dowolnym poziomie $\ mathbf { o} _ {L} = \ {o_ {1}, o_ {2}, \ kropki, o_ {T_ {L}} \}} można użyć$ $LHMM$ sekwencja symboli obserwacji ${$ do zaklasyfikowania danych wejściowych do jednego z ${\ Displaystyle K_ {L }} klas, gdzie$ klasa odpowiada każdemu z ${\ Displaystyle K_ {L}}$ HMM na poziomie ${\ Displaystyle L}$ . Klasyfikacja ta może być następnie wykorzystana do wygenerowania nowej obserwacji dla HMM poziomu ${\ displaystyle L-1} .$ Na najniższej warstwie, tj. poziomie $prymitywne$ symbole obserwacji ${\ Displaystyle \ mathbf {o} _ {p} = \ {o_ { 1},o_{2},\kropki,o_{T_{p}}\}}$ byłby generowany bezpośrednio z obserwacji modelowanego procesu. Na przykład w zadaniu śledzenia trajektorii prymitywne symbole obserwacji pochodziłyby ze skwantyzowanych wartości czujnika. Zatem w każdej warstwie LHMM obserwacje pochodzą z klasyfikacji warstwy leżącej poniżej, z wyjątkiem najniższej warstwy, gdzie symbole obserwacji pochodzą z pomiarów obserwowanego procesu.

Nie jest konieczne jednoczesne uruchamianie wszystkich poziomów ziarnistości. Na przykład możliwe jest użycie okienkowania na dowolnym poziomie struktury, tak aby klasyfikacja uwzględniała średnią z kilku klasyfikacji przed przekazaniem wyników do kolejnych warstw LHMM.

Zamiast po prostu używać zwycięskiego HMM na poziomie $.$ symbolu wejściowego dla HMM na poziomie, $go$ użyć jako generatora prawdopodobieństwa, przekazując rozkład w górę warstw LHMM. Tak więc zamiast strategii „zwycięzca bierze wszystko”, w której najbardziej prawdopodobny HMM jest wybierany jako symbol obserwacji, prawdopodobieństwo zaobserwowania $(i)}$ $Displaystyle$ $klasyfikacji$ rekurencji poziomu $HMM$ HMM na Tak więc, jeśli klasyfikacja HMM na poziomie $jest niepewna$ możliwe jest zwrócenie większej uwagi na informacje a priori zakodowane $.$ na

LHMM można w praktyce przekształcić w jednowarstwowy HMM, w którym wszystkie różne modele są ze sobą połączone. Niektóre z zalet, których można oczekiwać od używania LHMM w porównaniu z dużym jednowarstwowym HMM, to mniejsze prawdopodobieństwo, że LHMM będzie cierpieć z powodu przeuczenia ponieważ poszczególne podkomponenty są szkolone niezależnie na mniejszych ilościach danych. Konsekwencją tego jest to, że LHMM potrzebuje znacznie mniejszej ilości danych treningowych, aby osiągnąć wydajność porównywalną z HMM. Kolejną zaletą jest to, że warstwy na dole LHMM, które są bardziej wrażliwe na zmiany w środowisku, takie jak typ czujników, częstotliwość próbkowania itp., można ponownie trenować oddzielnie bez zmiany wyższych warstw LHMM.

Zobacz też

Hierarchiczny ukryty model Markowa