Korelacja kofenetyczna

W statystyce , a zwłaszcza w biostatystyce , korelacja kofenetyczna (dokładniej współczynnik korelacji kofenetycznej ) jest miarą tego, jak wiernie dendrogram zachowuje odległości parami między oryginalnymi niemodelowanymi punktami danych. Chociaż był on najszerzej stosowany w dziedzinie biostatystyki (zwykle do oceny modeli sekwencji DNA opartych na klastrach lub innych modeli taksonomicznych ), może być również stosowany w innych dziedzinach badań, w których surowe dane zwykle występują w skupiskach lub klastry. Współczynnik ten został również zaproponowany do wykorzystania jako test dla klastrów zagnieżdżonych.

Obliczanie współczynnika korelacji kofenetycznej

Załóżmy, że oryginalne dane { X i } zostały wymodelowane przy użyciu metody klastrowej w celu utworzenia dendrogramu { T i }; to znaczy uproszczony model, w którym dane, które są „bliskie”, zostały pogrupowane w hierarchiczne drzewo. Zdefiniuj następujące miary odległości.

  • odległość euklidesowa między i- tymi i j -tymi obserwacjami.
  • \ Displaystyle . Ta odległość to wysokość węzła, w którym te dwa punkty są po raz pierwszy połączone.

Następnie niech średnią z x ( ja , jot i średnią ( i , j ), współczynnik korelacji kofenetycznej c jest określony przez

Implementacja oprogramowania

Możliwe jest obliczenie korelacji kofenetycznej w R za pomocą pakietu dendextend R.

W Pythonie pakiet SciPy ma również implementację .

W MATLAB zestaw narzędzi Statistic and Machine Learning zawiera implementację.

Zobacz też

Linki zewnętrzne