Korelacja kofenetyczna

W statystyce , a zwłaszcza w biostatystyce , korelacja kofenetyczna (dokładniej współczynnik korelacji kofenetycznej ) jest miarą tego, jak wiernie dendrogram zachowuje odległości parami między oryginalnymi niemodelowanymi punktami danych. Chociaż był on najszerzej stosowany w dziedzinie biostatystyki (zwykle do oceny modeli sekwencji DNA opartych na klastrach lub innych modeli taksonomicznych ), może być również stosowany w innych dziedzinach badań, w których surowe dane zwykle występują w skupiskach lub klastry. Współczynnik ten został również zaproponowany do wykorzystania jako test dla klastrów zagnieżdżonych.

Obliczanie współczynnika korelacji kofenetycznej

Załóżmy, że oryginalne dane { X _i } zostały wymodelowane przy użyciu metody klastrowej w celu utworzenia dendrogramu { T _i }; to znaczy uproszczony model, w którym dane, które są „bliskie”, zostały pogrupowane w hierarchiczne drzewo. Zdefiniuj następujące miary odległości.

${\ Displaystyle x (i, j) = | X_ {i} -X_ {j} |}$ odległość euklidesowa między i- tymi i j -tymi obserwacjami.
${\ Displaystyle t (i, j)}$ $}}$ \ Displaystyle $j$ . Ta odległość to wysokość węzła, w którym te dwa punkty są po raz pierwszy połączone.

Następnie niech $będzie$ średnią z x ( ja , jot i $t$ średnią ( i , j ), współczynnik korelacji kofenetycznej c jest określony przez

{\ Displaystyle c = {\ Frac {\ suma _ {i <j} [x (i, j) - {\ bar {x}} [t (i, j) - {\ bar {t}}]} {\sqrt {\sum _{i<j}[x(i,j)-{\bar {x}}]^{2}\sum _{i<j}[t(i,j)-{\ słupek {t}}]^{2}}}}.}

Implementacja oprogramowania

Możliwe jest obliczenie korelacji kofenetycznej w R za pomocą pakietu dendextend R.

W Pythonie pakiet SciPy ma również implementację .

W MATLAB zestaw narzędzi Statistic and Machine Learning zawiera implementację.

Zobacz też

Kofenetyczny

Linki zewnętrzne