Medoid

Medoidy są reprezentatywnymi obiektami zbioru danych lub klastra w zbiorze danych, którego suma różnic w stosunku do wszystkich obiektów w klastrze jest minimalna. Medoidy są podobne w koncepcji do średnich lub centroidów , ale medoidy są zawsze ograniczone do członków zbioru danych. Medoidy są najczęściej używane w przypadku danych, gdy nie można zdefiniować średniej lub środka ciężkości, takich jak wykresy. Są również używane w kontekstach, w których środek ciężkości nie jest reprezentatywny dla zbioru danych, jak na obrazach, trójwymiarowych trajektoriach i ekspresji genów (gdzie podczas gdy dane są rzadkie, medoid nie musi być). Są one również interesujące, gdy chcemy znaleźć przedstawiciela przy użyciu innej odległości niż kwadrat odległości euklidesowej (na przykład w ocenach filmów).

W przypadku niektórych zestawów danych może istnieć więcej niż jeden medoid, jak w przypadku median. Powszechnym zastosowaniem medoidy jest k-medoidów , który jest podobny do algorytmu k-średnich , ale działa, gdy nie można zdefiniować średniej lub środka ciężkości. Algorytm ten zasadniczo działa w następujący sposób. Najpierw losowo wybierany jest zestaw medoidów. Po drugie, obliczane są odległości do innych punktów. Po trzecie, dane są grupowane według medoidu, do którego są najbardziej podobne. Po czwarte, zestaw medoidów jest optymalizowany w procesie iteracyjnym.

Należy zauważyć, że medoid nie jest odpowiednikiem mediany , mediany geometrycznej ani środka ciężkości . Mediana jest definiowana tylko na podstawie danych jednowymiarowych i minimalizuje jedynie odmienność do innych punktów dla metryk indukowanych przez normę ( taką jak odległość Manhattanu lub odległość euklidesowa ). Mediana geometryczna jest zdefiniowana w dowolnym wymiarze, ale niekoniecznie jest punktem z oryginalnego zbioru danych.

Definicja

Niech być zbiorem z funkcją odległości d . Medoid jest zdefiniowany jako

Klastrowanie z Medoidami

Medoidy są popularnym zamiennikiem średniej klastra, gdy funkcja odległości nie jest (podniesiona do kwadratu) odległością euklidesową, a nawet nie jest metryką ( ponieważ medoid nie wymaga nierówności trójkąta). Podczas partycjonowania zestawu danych na klastry, medoid każdego klastra może być używany jako reprezentatywny dla każdego klastra.

Algorytmy grupowania oparte na idei medoidów obejmują:

Algorytmy obliczania medoid zbioru

że ​​medoid zbioru można obliczyć po wszystkich par odległości między punktami w zespole. Wymagałoby to odległości (z ). W najgorszym przypadku nie można obliczyć medoidu przy mniejszej liczbie ocen odległości. Istnieje jednak wiele podejść, które pozwalają nam obliczyć medoidy dokładnie lub w przybliżeniu w czasie subkwadratowym w różnych modelach statystycznych.

mediany, co można zrobić za pomocą algorytmu szybkiego wyboru Jednak w rzeczywistych przestrzeniach o wyższych wymiarach nie jest znany żaden algorytm czasu liniowego. RAND to algorytm, który szacuje średnią odległość każdego punktu do wszystkich pozostałych punktów poprzez próbkowanie losowego podzbioru innych punktów. Zajmuje w sumie Obliczenia odległości w celu przybliżenia medoidy w ramach współczynnika z dużym prawdopodobieństwem, gdzie jest maksymalną odległością między dwoma punktami w zespole. Zauważ, że jest algorytmem aproksymacyjnym, a ponadto może nie znany a priori.

RAND został wykorzystany przez TOPRANK , który wykorzystuje szacunki uzyskane przez RAND , aby skupić się na małym podzbiorze kandydujących punktów, dokładnie ocenia średnią odległość tych punktów i wybiera ich minimum. TOPRANK potrzebuje obliczeń odległości do znalezienia dokładny _ medoid z dużym prawdopodobieństwem przy założeniu rozkładu na średnich odległościach.

trimed przedstawia algorytm znajdowania medoidu z ocenami odległości przy założeniu dystrybucji punktów. Algorytm wykorzystuje nierówność trójkąta, aby zmniejszyć przestrzeń wyszukiwania.

Meddit wykorzystuje połączenie obliczeń medoidów z wielorękimi bandytami i wykorzystuje algorytm typu górnej granicy ufności, aby uzyskać algorytm, który bierze oceny odległości przy założeniach statystycznych dotyczących punktów.

Skorelowany Sekwencyjny Halving również wykorzystuje techniki wielorękich bandytów, udoskonalając Meddit . Wykorzystując strukturę korelacji w problemie, algorytm jest w stanie zapewnić drastyczną poprawę (zwykle około 1-2 rzędów wielkości) zarówno pod względem liczby potrzebnych obliczeń odległości, jak i czasu zegara ściennego.

Implementacje

Implementację RAND , TOPRANK i trimed można znaleźć tutaj . Implementację Meddita można znaleźć tutaj i tutaj . Implementację skorelowanego sekwencyjnego zmniejszania o połowę można znaleźć tutaj .

  1. ^ Struyf, Anja; Hubert, Mia ; Rousseeuw, Peter (1997). „Klastrowanie w środowisku obiektowym” . Dziennik oprogramowania statystycznego . 1 (4): 1–30.
  2. ^   Van der Laan, Mark J .; Pollard, Katherine S.; Bryan, Jennifer (2003). „Nowe partycjonowanie wokół algorytmu Medoids” . Dziennik obliczeń statystycznych i symulacji . Grupa Taylora i Francisa. 73 (8): 575–584. doi : 10.1080/0094965031000136012 . S2CID 17437463 .
  3. ^ a b Newling, James; & Fleuret, François (2016); „A sub-kwadratowy dokładny algorytm medoid”, w Proceedings of the 20th International Conference on Artificial Intelligence and Statistics , PMLR 54: 185-193, 2017 Dostępne online .
  4. ^ a b Bagaria, Vivek; Kamath, Govinda M.; Ntranos, Wasilis; Zhang, Martin J.; & Tse, David N. (2017); „Medoidy w prawie liniowym czasie przez wielorękich bandytów”, preprint arXiv Dostępne online .
  5. ^ Siwy, Charles Antony Richard (1961); „Algorytm 65: znajdź”, w: Komunikaty ACM , 4 (7), 321-322
  6. Bibliografia _ _ & Wang, Józef (2006); „Szybkie przybliżenie centralności”, w Graph Algorithms and Applications , 5 , s. 39-45
  7. Bibliografia _ Chen, Wei; & Li, Xiang-Yang (2008); „Ranking centralności bliskości dla sieci społecznościowych na dużą skalę” , w: Preparata, Franco P.; Wu, Xiaodong; Yin, Jianping (red.); Frontiers in Algorithmics Workshop 2008 , Notatki z wykładów z informatyki , 5059 , 186-195
  8. ^ Baharav, Tavor Z.; & Tse, David N. (2019); „Ultra szybka identyfikacja Medoid poprzez skorelowane sekwencyjne zmniejszanie o połowę”, w Advances in Neural Information Processing Systems , dostępny online