Korelacja kofenetyczna
W statystyce , a zwłaszcza w biostatystyce , korelacja kofenetyczna (dokładniej współczynnik korelacji kofenetycznej ) jest miarą tego, jak wiernie dendrogram zachowuje odległości parami między oryginalnymi niemodelowanymi punktami danych. Chociaż był on najszerzej stosowany w dziedzinie biostatystyki (zwykle do oceny modeli sekwencji DNA opartych na klastrach lub innych modeli taksonomicznych ), może być również stosowany w innych dziedzinach badań, w których surowe dane zwykle występują w skupiskach lub klastry. Współczynnik ten został również zaproponowany do wykorzystania jako test dla klastrów zagnieżdżonych.
Obliczanie współczynnika korelacji kofenetycznej
Załóżmy, że oryginalne dane { X i } zostały wymodelowane przy użyciu metody klastrowej w celu utworzenia dendrogramu { T i }; to znaczy uproszczony model, w którym dane, które są „bliskie”, zostały pogrupowane w hierarchiczne drzewo. Zdefiniuj następujące miary odległości.
- odległość euklidesowa między i- tymi i j -tymi obserwacjami.
- \ Displaystyle . Ta odległość to wysokość węzła, w którym te dwa punkty są po raz pierwszy połączone.
Następnie niech średnią z x ( ja , jot i średnią ( i , j ), współczynnik korelacji kofenetycznej c jest określony przez
Implementacja oprogramowania
Możliwe jest obliczenie korelacji kofenetycznej w R za pomocą pakietu dendextend R.
W Pythonie pakiet SciPy ma również implementację .
W MATLAB zestaw narzędzi Statistic and Machine Learning zawiera implementację.