Widmowe grupowanie

Przykładowy spójny graf z 6 wierzchołkami.
Podział na dwa połączone grafy

W statystyce wielowymiarowej techniki grupowania widmowego wykorzystują widmo ( wartości własne ) macierzy podobieństwa danych do przeprowadzenia redukcji wymiarowości przed grupowaniem w mniejszej liczbie wymiarów. Macierz podobieństw jest dostarczana jako dane wejściowe i składa się z ilościowej oceny względnego podobieństwa każdej pary punktów w zbiorze danych.

W zastosowaniu do segmentacji obrazu grupowanie widmowe jest znane jako kategoryzacja obiektów oparta na segmentacji .

Definicje

Biorąc pod uwagę wyliczony zestaw punktów danych, macierz podobieństwa można zdefiniować jako macierz symetryczną , gdzie reprezentuje miarę podobieństwa między punktami danych ZA {\ displaystyle A z indeksami { . Ogólne podejście do grupowania widmowego polega na użyciu standardowej grupowania (istnieje wiele takich metod, k -średnie omówiono poniżej na odpowiednich wektorach własnych macierzy Laplace'a Istnieje wiele różnych sposobów definiowania Laplace'a, które mają różne interpretacje matematyczne, więc grupowanie będzie również miało różne interpretacje. Istotne wektory własne to te, które odpowiadają najmniejszym kilku wartościom własnym Laplace'a, z wyjątkiem najmniejszej wartości własnej, która będzie miała wartość 0. Dla wydajności obliczeniowej te wektory własne są często obliczane jako wektory własne odpowiadające kilku największym wartościom własnym a funkcja Laplace'a.

Macierz Laplace'a

Dwuwymiarowy system sprężyn.

Widmowe grupowanie jest dobrze znane jako związane z podziałem układu masa-sprężyna, gdzie każda masa jest powiązana z punktem danych, a każda sztywność sprężyny odpowiada wadze krawędzi opisującej podobieństwo dwóch powiązanych punktów danych, jak na wiosnę system . W szczególności odniesienie klasyczne wyjaśnia, że ​​​​problem wartości własnej opisujący mody drgań poprzecznych układu masa-sprężyna jest dokładnie taki sam, jak problem wartości własnej dla wykresu macierzy Laplaca zdefiniowanej jako

,

gdzie jest _

a A jest macierzą sąsiedztwa .

Masy, które są ściśle połączone sprężynami w układzie masa-sprężyna, najwyraźniej poruszają się razem z położenia równowagi w modach drgań o niskiej częstotliwości, tak że składowe wektorów własnych odpowiadające najmniejszym wartościom własnym grafu Laplaciana mogą być użyte do sensownego skupienie mas. Na przykład, zakładając, że wszystkie sprężyny i masy są identyczne w pokazanym dwuwymiarowym układzie sprężyn, można by intuicyjnie oczekiwać, że najluźniejsze połączone masy po prawej stronie układu poruszałyby się z największą amplitudą i odwrotnie kierunku do reszty mas, gdy układ jest wstrząśnięty — a oczekiwanie to zostanie potwierdzone analizując składowe wektorów własnych grafu Laplace'a odpowiadające najmniejszym wartościom własnym, czyli najmniejszym częstotliwości drgań .

Normalizacja macierzy Laplaca

Celem normalizacji jest sprawienie, aby wszystkie przekątne wpisów macierzy Laplace'a były jednostkami, a także odpowiednie skalowanie wpisów poza przekątną. W grafie ważonym wierzchołek może mieć duży stopień ze względu na małą liczbę połączonych krawędzi, ale przy dużych wagach równie dobrze ze względu na dużą liczbę połączonych krawędzi o jednostkowych wagach.

Popularną techniką znormalizowanego grupowania widmowego jest algorytm znormalizowanych cięć lub algorytm Shi-Malik wprowadzony przez Jianbo Shi i Jitendra Malika , powszechnie używany do segmentacji obrazu . Dzieli punkty na dwa zbiory na podstawie własnego odpowiadającego drugiej najmniejszej wartości własnej symetrycznego znormalizowanego Laplace'a zdefiniowana jako

Wektor jest również wektorem własnym odpowiadającym drugiej co do wielkości wartości własnej symetrycznie macierzy

Błąd losowy (lub lewy) znormalizowany Laplace'a jest zdefiniowany jako

i może być również używany do grupowania widmowego. Matematycznie własny największej wartości własnej macierzy błądzenia losowego

Wektor własny laplace'a i wektor własny laplace'a są powiązane tożsamością

Analiza klastrów poprzez Spectral Embedding

Znając wybranych wektorów własnych, - oryginalnych punktów na -wymiarowa przestrzeń wektorowa przy użyciu rzędów . Teraz analiza ogranicza się do grupowania wektorów ze , co można zrobić na różne sposoby

W najprostszym przypadku pojedynczy wektor własny zwany Fiedlera odpowiada drugiej najmniejszej wartości Używając składowych można umieścić wszystkie punkty, których składowa w a resztę w zbiorze , dzieląc w ten sposób wykres na dwie części i oznaczając punkty danych dwiema etykietami. To podejście oparte na znakach jest zgodne z intuicyjnym wyjaśnieniem klastrowania widmowego za pomocą modelu masa-sprężyna - w trybie wibracji o niskiej częstotliwości, który wektor Fiedlera , jeden punkt danych klastra zidentyfikowany ze wzajemnie silnie połączonymi masami poruszałby się razem v {\ w jednym kierunku, podczas gdy w klastrze dopełniającym punkty danych utożsamiane z pozostałymi masami poruszałyby się razem w przeciwnym kierunku. Algorytm może być używany do hierarchicznego klastrowania przez wielokrotne partycjonowanie podzbiorów w ten sam sposób.

W ogólnym przypadku można zastosować dowolną technikę grupowania wektorów .

Algorytmy

Podstawowy algorytm
  1. Oblicz Laplace'a (lub znormalizowanego Laplace'a)
  2. pierwsze (wektory własne odpowiadające najmniejszym wartościom własnym ) }
  3. Rozważ macierz utworzoną przez pierwsze ; l -ty wiersz określa cechy węzła wykresu
  4. Pogrupuj węzły wykresu w oparciu o te cechy (np. używając grupowania k-średnich )

Jeśli macierz podobieństwa została jeszcze jawnie skonstruowana, wydajność grupowania widmowego można poprawić, jeśli rozwiązanie odpowiedniego problemu wartości własnej zostanie przeprowadzone w sposób wolny od macierzy (bez jawnego manipulowania lub nawet obliczania podobieństwa ZA {\ displaystyle A macierz), jak w algorytmie Lanczosa .

W przypadku grafów o dużych rozmiarach druga wartość własna (znormalizowanej) macierzy Laplace'a wykresu jest często źle uwarunkowana , co prowadzi do powolnej zbieżności iteracyjnych solwerów wartości własnych. Kluczową technologią przyspieszającą konwergencję jest kondycjonowanie wstępne , np. w bezmatrycowej metodzie LOBPCG . Grupowanie widmowe zostało z powodzeniem zastosowane na dużych grafach, najpierw identyfikując ich strukturę społeczności , a następnie grupując społeczności.

Grupowanie widmowe jest ściśle związane z nieliniową redukcją wymiarowości , a techniki redukcji wymiarów, takie jak osadzanie lokalnie liniowe, mogą być stosowane w celu zmniejszenia błędów spowodowanych szumem lub wartościami odstającymi.

Koszty

Oznaczając liczbę punktów danych ważne jest, aby oszacować wielkość pamięci i czas obliczeń lub liczbę wykonanych operacji arytmetycznych (AO . Bez względu na algorytm grupowania widmowego, dwoma głównymi elementami są konstrukcja wykresu Laplace'a i określenie jego własnych dla osadzania widmowego. Ostatni krok - określenie etykiet na podstawie -by- jest zazwyczaj najtańszą, wymagającą tylko tylko etykiet w pamięci

Konieczność skonstruowania grafu Laplace'a jest wspólna dla wszystkich metod grupowania opartych na odległości lub korelacji. Obliczanie wektorów własnych jest specyficzne tylko dla grupowania widmowego.

Konstruowanie grafu Laplace'a

Graf Laplace'a może być i zwykle jest zbudowany z macierzy sąsiedztwa. Konstrukcję można przeprowadzić bez macierzy, tj. bez jawnego tworzenia macierzy grafu Laplace'a i bez AO. Można to również wykonać zamiast macierzy sąsiedztwa bez zwiększania zużycia pamięci. Tak czy inaczej, koszt skonstruowania wykresu Laplace'a jest zasadniczo określony przez koszty skonstruowania macierzy sąsiedztwa wykresu -by-

Co więcej, znormalizowany Laplacian ma dokładnie takie same wektory własne jak znormalizowana macierz sąsiedztwa, ale z odwróconą kolejnością wartości własnych. Zatem zamiast obliczać wektory własne odpowiadające najmniejszym wartościom własnym znormalizowanego Laplaciana, można równoważnie obliczyć wektory własne odpowiadające największym wartościom własnym znormalizowanej macierzy sąsiedztwa, nawet nie mówiąc o macierzy Laplaca.

Naiwne konstrukcje macierzy sąsiedztwa grafu , np. Przy użyciu jądra RBF, sprawiają, że jest ona gęsta, co wymaga AO do określenia każdego z wpisy macierzy. Metodę Nystroma można wykorzystać do aproksymacji macierzy podobieństwa, ale aproksymowana macierz nie jest elementarnie dodatnia, tj. nie może być interpretowana jako podobieństwo oparte na odległości.

Algorytmy konstruowania macierzy sąsiedztwa wykresu jako macierzy rzadkiej są zwykle oparte na wyszukiwaniu najbliższego sąsiada , które szacuje lub próbkuje sąsiedztwo danego punktu danych dla najbliższych sąsiadów i oblicza niezerowe wpisy macierzy sąsiedztwa, porównując tylko pary sąsiedzi. Liczba wybranych najbliższych sąsiadów określa zatem liczbę niezerowych wpisów i często jest ustalana tak, że ślad sąsiedztwa tylko sekwencyjne operacje arytmetyczne są potrzebne do obliczenia niezerowych wpisów, a obliczenia można trywialnie wykonywać równolegle.

Obliczanie wektorów własnych

Koszt obliczenia macierzy wybranych wektorów własnych wykresu Laplace'a jest zwykle do kosztu mnożenia - przez - k {\ Displaystyle k n -by- różni się znacznie, czy macierz Laplaca jest gęsta czy rzadka. Dla gęstego przypadku koszt wynosi zatem . w literaturze koszt wyboru np. W grupowanie widmowe określone przez wektor Fiedlera .

nielicznym przypadku wykresu macierzy Laplace'a z , koszt iloczynu macierzowo-wektorowego a zatem obliczenie macierzy wybranych wektorów własnych Displaystyle } jest pamięci również tylko optymalnymi dolnymi granicami złożoności danych Co więcej, bezmacierzowe solwery wartości własnych, takie jak LOBPCG , mogą wydajnie działać równolegle, np. na wielu procesorach graficznych z rozproszoną pamięcią, co skutkuje nie tylko wysokiej jakości klastrami, z których słynie klastrowanie widmowe, ale także najwyższą wydajnością.

Oprogramowanie

Darmowe oprogramowanie implementujące grupowanie widmowe jest dostępne w dużych projektach open source, takich jak scikit-learn przy użyciu LOBPCG z wielosiatkowym uwarunkowaniem wstępnym lub ARPACK , MLlib do klastrowania pseudowektorów własnych przy użyciu metody iteracji mocy i R .

Związek z innymi metodami grupowania

Idee stojące za grupowaniem widmowym mogą nie być od razu oczywiste. Przydatne może być podkreślenie relacji z innymi metodami. W szczególności można to opisać w kontekście metod grupowania jądra, które ujawniają kilka podobieństw z innymi podejściami.

Związek z k -średnimi

Ważony problem k -średnich jąder dzieli funkcję celu z problemem grupowania widmowego, który można optymalizować bezpośrednio metodami wielopoziomowymi.

Związek z DBSCAN

W trywialnym przypadku określania połączonych elementów grafu — optymalnych klastrów bez odciętych krawędzi — grupowanie widmowe jest również powiązane z widmową wersją klastrowania DBSCAN , która znajduje komponenty połączone gęstością.

Miary porównywania klastrów

Ravi Kannan, Santosh Vempala i Adrian Vetta zaproponowali miarę dwukryterialną w celu zdefiniowania jakości danego skupienia. Powiedzieli, że skupienie jest skupieniem (α, ε), jeśli przewodnictwo każdego skupienia (w skupieniu) wynosi co najmniej α, a masa krawędzi między skupieniami wynosi co najwyżej ε ułamka całkowitej masy wszystkich krawędzie w grafie. Przyglądają się również dwóm algorytmom aproksymacji w tym samym artykule.

Literatura historyczna i pokrewna

Klastrowanie widmowe ma długą historię. Grupowanie widmowe jako uczenia maszynowego zostało spopularyzowane przez Shi i Malik oraz Ng, Jordan i Weiss.

Pomysły i środki sieciowe związane z klastrowaniem widmowym również odgrywają ważną rolę w wielu zastosowaniach pozornie różniących się od problemów związanych z klastrowaniem. Na przykład sieci z silniejszymi podziałami widmowymi potrzebują więcej czasu na zbieżność w aktualizujących opinie modelach stosowanych w socjologii i ekonomii.

Zobacz też

  1. ^ J. Demmel, [1] , CS267: Uwagi do wykładu 23, 9 kwietnia 1999, Partycjonowanie wykresów, część 2
  2. ^ a b c Jianbo Shi i Jitendra Malik, „Normalized Cuts and Image Segmentation” , IEEE Transactions on PAMI, tom. 22, nr 8, sierpień 2000.
  3. ^ Marina Meilă i Jianbo Shi, „ Segmentacja uczenia się przez losowe spacery ”, Neural Information Processing Systems 13 (NIPS 2000), 2001, s. 873–879.
  4. ^    Zare, Habil; P. Shooshtari; A. Gupta; R. Brinkmana (2010). „Redukcja danych do grupowania widmowego w celu analizy danych z cytometrii przepływowej o dużej przepustowości” . BMC Bioinformatyka . 11 : 403. doi : 10.1186/1471-2105-11-403 . PMC 2923634 . PMID 20667133 .
  5. ^ Arias-Castro   , E. i Chen , G. i Lerman , G. ( 2011 ), „Grupowanie widmowe oparte na lokalnych przybliżeniach liniowych . /11-ejs651 , S2CID 88518155 {{ cytat }} : CS1 maint: wiele nazw: lista autorów ( link )
  6. ^    Fowlkes, C (2004). „Grupowanie widmowe metodą Nystroma” . Transakcje IEEE dotyczące analizy wzorców i inteligencji maszynowej . 26 (2): 214–25. doi : 10.1109/TPAMI.2004.1262185 . PMID 15376896 . S2CID 2384316 .
  7. ^ S. Wang, A. Gittens i MW Mahoney (2019). „Skalowalne klastrowanie k-średnich jądra z aproksymacją Nystroma: względne granice błędów” . Dziennik badań nad uczeniem maszynowym . 20 : 1–49. ar Xiv : 1706.02803 . {{ cite journal }} : CS1 maint: wiele nazwisk: lista autorów ( link )
  8. Bibliografia   _ Boman, Erik G.; Glusa, Christian A.; Rajamanickam, Sivasankaran (2021). „Sphynx: równoległy partycjoner grafu z wieloma procesorami graficznymi dla systemów z pamięcią rozproszoną” . Obliczenia równoległe . 106 : 102769. doi : 10.1016/j.parco.2021.102769 . S2CID 233481603 .
  9. ^ „2.3. Grupowanie” .
  10. ^ Knyazev, Andrew V. (2003). Boley; Dhillon; Ghosh; Kogan (red.). Nowoczesne wstępnie uwarunkowane solwery własne do segmentacji obrazu widmowego i bisekcji wykresu . klastrowanie dużych zbiorów danych; Trzecia międzynarodowa konferencja IEEE na temat eksploracji danych (ICDM 2003) Melbourne, Floryda: IEEE Computer Society. s. 59–62.
  11. ^ Knyazev, Andrew V. (2006). Multiscale Spectral Image Segmentation Wieloskalowe uwarunkowania wstępne do obliczania wartości własnych grafów Laplace'a w segmentacji obrazu . Warsztaty szybkiego uczenia się wielorakości, WM Williamburg, Wirginia. doi : 10.13140/RG.2.2.35280.02565 .
  12. ^ Knyazev, Andrew V. (2006). Wieloskalowe partycjonowanie grafów widmowych i segmentacja obrazu . Warsztaty na temat algorytmów dla nowoczesnych masowych zbiorów danych Uniwersytet Stanforda i Yahoo! Badania.
  13. ^ „Klastrowanie — interfejs API oparty na RDD — dokumentacja platformy Spark 3.2.0” .
  14. ^ „Kernlab: laboratorium uczenia maszynowego oparte na jądrze” . 12 listopada 2019 r.
  15. ^ Filippone M., Camastra F., Masulli, F., Rovetta, S. (styczeń 2008). „Przegląd metod jądrowych i widmowych do grupowania” (PDF) . Rozpoznawanie wzorców . 41 (1): 176–190. Bibcode : 2008PatRe..41..176F . doi : 10.1016/j.patcog.2007.05.018 . {{ cite journal }} : CS1 maint: data i rok ( link ) CS1 maint: wiele nazwisk: lista autorów ( link )
  16. ^ Dhillon, IS i Guan, Y. i Kulis, B. (2004). „Kernel k - oznacza: grupowanie widmowe i znormalizowane cięcia” (PDF) . Materiały z dziesiątej międzynarodowej konferencji ACM SIGKDD poświęconej odkrywaniu wiedzy i eksploracji danych . s. 551–556. {{ cite Conference }} : CS1 maint: wiele nazwisk: lista autorów ( link )
  17. Bibliografia     _ Yuqiang Guan; Brian Kulis (listopad 2007). „Ważone cięcia wykresów bez wektorów własnych: podejście wielopoziomowe”. Transakcje IEEE dotyczące analizy wzorców i inteligencji maszynowej . 29 (11): 1944–1957. CiteSeerX 10.1.1.131.2635 . doi : 10.1109/tpami.2007.1115 . PMID 17848776 . S2CID 9402790 .
  18. ^ Schubert, Erich; Hess, Sybilla; Morik, Katarzyna (2018). Związek DBSCAN z faktoryzacją macierzy i klastrowaniem widmowym (PDF) . LWDA. s. 330–334.
  19. Bibliografia   _ Wempala, Santosz; Vetta, Adrian (2004). „O klastrach: dobry, zły i widmowy”. Dziennik ACM . 51 (3): 497–515. doi : 10.1145/990308.990313 . S2CID 207558562 .
  20. Bibliografia _ „Dolna granica najmniejszej wartości własnej Laplace'a”. Obrady Konferencji Princeton na cześć profesora S. Bochnera .
  21. ^ William Donath i Alan Hoffman (1972). „Algorytmy podziału grafów i logiki komputerowej na podstawie wektorów własnych macierzy połączeń”. Biuletyn ujawniania informacji technicznych IBM .
  22. ^ Fiedler, Mirosław (1973). „Algebraiczna łączność grafów” . Czechosłowacki Dziennik Matematyczny . 23 (2): 298–305. doi : 10.21136/CMJ.1973.101168 .
  23. ^ Stephen Guattery i Gary L. Miller (1995). „O wydajności metod partycjonowania grafów widmowych”. Doroczne sympozjum ACM-SIAM na temat algorytmów dyskretnych .
  24. ^ Daniel A. Spielman i Shang-Hua Teng (1996). „Prace z partycjonowaniem widmowym: wykresy planarne i siatki elementów skończonych”. Coroczne sympozjum IEEE na temat podstaw informatyki .
  25. ^ a b Ng, Andrew Y i Jordan, Michael I i Weiss, Yair (2002). „O grupowaniu widmowym: analiza i algorytm” (PDF) . Postępy w systemach przetwarzania informacji neuronowych . {{ cite journal }} : CS1 maint: wiele nazwisk: lista autorów ( link )
  26. Bibliografia   _ Vayanos, D.; Zwiebel, J. (2003-08-01). „Stronniczość perswazyjna, wpływ społeczny i opinie jednowymiarowe” . Kwartalnik Ekonomii . Oxford University Press (OUP). 118 (3): 909–968. doi : 10.1162/00335530360698469 . ISSN 0033-5533 .
  27. ^   Golub, Beniamin; Jackson, Matthew O. (26.07.2012). „Jak homofilia wpływa na szybkość uczenia się i dynamikę najlepszej odpowiedzi”. Kwartalnik Ekonomii . Oxford University Press (OUP). 127 (3): 1287–1338. doi : 10.1093/qje/qjs021 . ISSN 0033-5533 .