Zniekształcona analiza korespondencji

Analiza korespondencji z opóźnieniem (DCA) to wielowymiarowa technika statystyczna szeroko stosowana przez ekologów do znajdowania głównych czynników lub gradientów w dużych, bogatych w gatunki, ale zwykle rzadkich macierzach danych, które charakteryzują dane społeczności ekologicznych . DCA jest często używany do tłumienia artefaktów charakterystycznych dla większości innych analiz wielowymiarowych , gdy jest stosowany do danych gradientowych .

Historia

DCA została stworzona w 1979 roku przez Marka Hilla z brytyjskiego Instytutu Ekologii Terrestrialnej (obecnie połączonego z Centrum Ekologii i Hydrologii ) i zaimplementowana w pakiecie kodów FORTRAN o nazwie DECORANA (Detrended Correspondence Analysis), metoda analizy korespondencji . DCA jest czasami błędnie określane jako DECORANA; jednak DCA jest algorytmem bazowym, podczas gdy DECORANA jest narzędziem go implementującym.

Rozwiązywane problemy

Według Hilla i Gaucha, DCA tłumi dwa artefakty nieodłącznie związane z większością innych analiz wielowymiarowych, gdy stosuje się je do danych gradientu . Przykładem jest seria czasowa gatunków roślin kolonizujących nowe siedlisko; gatunki wczesnej sukcesji są zastępowane przez gatunki w połowie sukcesji, a następnie przez gatunki późnej sukcesji (patrz przykład poniżej). Kiedy takie dane są analizowane za pomocą standardowego wyświęcenia , takiego jak analiza korespondencji:

  • wyniki ordynacji próbek będą wykazywać „efekt krawędzi”, tj. wariancja wyników na początku i na końcu regularnej sukcesji gatunków będzie znacznie mniejsza niż w środku,
  • przedstawione w postaci wykresu punkty będą postrzegane jako biegnące po krzywej w kształcie podkowy , a nie po linii prostej („efekt łuku”), mimo że analizowany proces jest stałą i ciągłą zmianą, którą ludzka intuicja wolałaby postrzegać jako liniową tendencja.

Poza ekologią te same artefakty pojawiają się, gdy analizowane są dane gradientu (np. właściwości gleby wzdłuż transektu biegnącego między 2 różnymi obszarami geologicznymi lub dane behawioralne w ciągu życia osobnika), ponieważ zakrzywione odwzorowanie jest dokładną reprezentacją kształtu danych w przestrzeń wielowymiarowa.

Ter Braak i Prentice (1987, s. 121) cytują badanie symulacyjne analizujące dwuwymiarowe modele upakowania gatunków, co skutkuje lepszą wydajnością DCA w porównaniu z CA.

metoda

DCA to iteracyjny algorytm , który okazał się wysoce niezawodnym i użytecznym narzędziem do eksploracji i podsumowywania danych w ekologii społeczności (Shaw 2003). Rozpoczyna się od przeprowadzenia standardowej ordynacji (CA lub uśredniania odwrotnego) na danych, aby utworzyć początkową krzywą podkowy, w której 1. oś ordynacji zniekształca się w 2. oś. Następnie dzieli pierwszą oś na segmenty (domyślnie = 26) i przeskalowuje każdy segment, aby uzyskać średnią wartość zerową na drugiej osi - to skutecznie spłaszcza krzywą. Przeskalowuje również oś, tak że końce nie są już ściśnięte względem środka, tak że 1 jednostka DCA zbliża się do tego samego tempa obrotu na całej długości danych: praktyczna zasada jest taka, że ​​4 jednostki DCA oznaczają, że był całkowitym obrotem w społeczności. Ter Braak i Prentice (1987, s. 122) ostrzegają przed nieliniowym przeskalowaniem osi ze względu na problemy z solidnością i zalecają stosowanie wyłącznie detrendowania przez wielomiany.

Wady

Żadne testy istotności nie są dostępne dla DCA, chociaż istnieje ograniczona (kanoniczna) wersja zwana DCCA, w której osie są zmuszane przez wielokrotną regresję liniową do optymalnej korelacji z liniową kombinacją innych (zwykle środowiskowych) zmiennych; pozwala to na testowanie modelu zerowego za pomocą permutacji Monte-Carlo .

Przykład

Przykład pokazuje idealny zestaw danych: dane o gatunkach są w wierszach, próbki w kolumnach. Dla każdej próbki wzdłuż gradientu wprowadzany jest nowy gatunek, ale inny gatunek już nie występuje. Rezultatem jest rzadka macierz. Jedynki wskazują na obecność gatunku w próbce. Z wyjątkiem krawędzi, każda próbka zawiera pięć gatunków.

Porównanie Analizy korespondencji i Analizy korespondencji detrendowanej na przykładowych (idealnych) danych. Zobacz efekt łuku w CA i jego rozwiązanie w DCA.
Idealne dane dotyczące ordynacji
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
SP1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SP2 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SP3 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SP4 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
SP5 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
SP6 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
SP7 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0
SP8 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
SP9 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0
SP10 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0
SP11 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0
SP12 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0
SP13 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0
SP14 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0
SP15 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0
SP16 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0
SP17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0
SP18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1
SP19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
SP20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1

Wykres dwóch pierwszych osi wyniku analizy korespondencji po prawej stronie wyraźnie pokazuje wady tej procedury: efekt krawędziowy, czyli skupienie punktów na krawędziach pierwszej osi, oraz efekt łuku.

Oprogramowanie

Implementacja DCA typu open source, oparta na oryginalnym kodzie FORTRAN, jest dostępna w wegańskim pakiecie R.

Zobacz też

  • Hill, Missouri (1979). DECORANA — program FORTRAN do analizy korespondencji zdetrenowanej i uśredniania wzajemności . Sekcja Ekologii i Systematyki, Cornell University, Ithaca, Nowy Jork, 52 pp.
  • Hill, MO i Gauch, HG (1980). Analiza korespondencji zniechęconej: ulepszona technika święceń. Wegetacja 42 , 47–58.
  • Oksanen J i Minchin PR (1997). Niestabilność ordynacji wynika ze zmian kolejności danych wejściowych: wyjaśnienie i środki zaradcze. Journal of roślinności nauki 8 , 447-454
  • Shaw PJA (2003). Statystyki wielowymiarowe dla nauk o środowisku . Londyn: Hodder Arnold
  •   Ter Braak, CJF i Prentice, IC (1988). Teoria analizy gradientów. Postępy w badaniach ekologicznych 18 , 271–371. ISBN 0-12-013918-9 . Przedruk w: Ter Braak, CJF (1987). Modele unimodalne do powiązania gatunków ze środowiskiem . Wageningen: praca doktorska Grupa Matematyki Rolniczej, 101–146.

Linki zewnętrzne

  • PAST (PAlaeontological STatistics) — wolne oprogramowanie zawierające DCA z modyfikacjami według Oksanena i Minchina (1997)
  • WINBASP — wolne oprogramowanie, w tym DCA z detrenowaniem przez wielomiany według Ter Braaka i Prentice'a (1988)
  • wegańskie: Community Ecology Package for R — darmowe oprogramowanie zawierające funkcję decorana: Detrended Correspondence Analysis and Basic Reciprocal Averaging od Hilla i Gaucha (1980)