Modelowanie ważone klastrami

W eksploracji danych modelowanie ważone klastrami (CWM) to oparte na algorytmie podejście do nieliniowego przewidywania wyników ( zmiennych zależnych ) na podstawie danych wejściowych ( zmiennych niezależnych ) w oparciu o oszacowanie gęstości przy użyciu zestawu modeli (skupisk), z których każdy jest hipotetycznie odpowiednie w podregionie przestrzeni wejściowej. Ogólne podejście sprawdza się w wspólnej przestrzeni wejścia-wyjścia, a wstępną wersję zaproponował Neil Gershenfeld .

Podstawowa forma modelu

Procedurę modelowania ważonego klastrami problemu wejścia-wyjścia można przedstawić w następujący sposób. Aby skonstruować wartości przewidywane dla zmiennej wyjściowej y ze zmiennej wejściowej x , procedura modelowania i kalibracji dochodzi do wspólnej funkcji gęstości prawdopodobieństwa p ( y , x ). Tutaj „zmienne” mogą być jednowymiarowe, wielowymiarowe lub szeregi czasowe. Dla wygody żadne parametry modelu nie są tutaj wskazane w notacji i możliwych jest kilka różnych ich obróbek, w tym ustawienie ich na stałe wartości jako krok w kalibracji lub potraktowanie ich za pomocą analizy bayesowskiej . Wymagane przewidywane wartości uzyskuje się konstruując warunkową gęstość prawdopodobieństwa p ( y | x ), z której można uzyskać prognozę przy użyciu warunkowej wartości oczekiwanej , przy czym wariancja warunkowa dostarcza wskazania niepewności.

Ważnym krokiem modelowania jest założenie, że p ( y | x ) przyjmuje następującą postać, jako model mieszany :

gdzie n to liczba klastrów, a { w j } to wagi, które sumują się do jednego. Funkcje p j ( y , x ) są połączonymi funkcjami gęstości prawdopodobieństwa, które odnoszą się do każdego z n skupień. Funkcje te są modelowane przy użyciu rozkładu na gęstość warunkową i krańcową :

Gdzie:

  • p j ( y | x ) jest modelem do przewidywania y przy danym x i przy założeniu, że parę wejście-wyjście należy powiązać ze skupieniem j na podstawie wartości x . W najprostszych przypadkach model ten może być modelem regresji .
  • p j ( x ) jest formalnie gęstością dla wartości x , biorąc pod uwagę, że para wejście-wyjście powinna być powiązana z klastrem j . Względne rozmiary tych funkcji między klastrami określają, czy dana wartość x jest powiązana z danym centrum klastra. Ta gęstość może być funkcją Gaussa wyśrodkowaną na parametrze reprezentującym centrum klastra.

Podobnie jak w przypadku analizy regresji , ważne będzie rozważenie wstępnych transformacji danych jako części ogólnej strategii modelowania, jeśli podstawowymi składnikami modelu mają być proste modele regresji dla gęstości warunków skupień i rozkłady normalne dla gęstości ważenia skupień p j ( x ).

Wersje ogólne

Podstawowy algorytm CWM daje pojedynczy klaster wyjściowy dla każdego klastra wejściowego. Jednak CWM można rozszerzyć na wiele klastrów, które nadal są powiązane z tym samym klastrem wejściowym. Każdy klaster w CWM jest zlokalizowany w obszarze wejściowym Gaussa, który zawiera własny model lokalny, który można trenować. Jest uznawany za wszechstronny algorytm wnioskowania, który zapewnia prostotę, ogólność i elastyczność; nawet jeśli preferowana może być sieć warstwowa z wyprzedzeniem, jest ona czasami używana jako „druga opinia” na temat natury problemu szkoleniowego.

Oryginalna forma zaproponowana przez Gershenfelda opisuje dwie innowacje:

  • Umożliwienie pracy CWM z ciągłymi strumieniami danych
  • Rozwiązanie problemu lokalnych minimów napotykanych przez proces regulacji parametrów CWM

CWM może służyć do klasyfikowania nośników w aplikacjach drukarek, przy użyciu co najmniej dwóch parametrów do generowania danych wyjściowych, które mają wspólną zależność od parametrów wejściowych.