Zniekształcona analiza korespondencji
Analiza korespondencji z opóźnieniem (DCA) to wielowymiarowa technika statystyczna szeroko stosowana przez ekologów do znajdowania głównych czynników lub gradientów w dużych, bogatych w gatunki, ale zwykle rzadkich macierzach danych, które charakteryzują dane społeczności ekologicznych . DCA jest często używany do tłumienia artefaktów charakterystycznych dla większości innych analiz wielowymiarowych , gdy jest stosowany do danych gradientowych .
Historia
DCA została stworzona w 1979 roku przez Marka Hilla z brytyjskiego Instytutu Ekologii Terrestrialnej (obecnie połączonego z Centrum Ekologii i Hydrologii ) i zaimplementowana w pakiecie kodów FORTRAN o nazwie DECORANA (Detrended Correspondence Analysis), metoda analizy korespondencji . DCA jest czasami błędnie określane jako DECORANA; jednak DCA jest algorytmem bazowym, podczas gdy DECORANA jest narzędziem go implementującym.
Rozwiązywane problemy
Według Hilla i Gaucha, DCA tłumi dwa artefakty nieodłącznie związane z większością innych analiz wielowymiarowych, gdy stosuje się je do danych gradientu . Przykładem jest seria czasowa gatunków roślin kolonizujących nowe siedlisko; gatunki wczesnej sukcesji są zastępowane przez gatunki w połowie sukcesji, a następnie przez gatunki późnej sukcesji (patrz przykład poniżej). Kiedy takie dane są analizowane za pomocą standardowego wyświęcenia , takiego jak analiza korespondencji:
- wyniki ordynacji próbek będą wykazywać „efekt krawędzi”, tj. wariancja wyników na początku i na końcu regularnej sukcesji gatunków będzie znacznie mniejsza niż w środku,
- przedstawione w postaci wykresu punkty będą postrzegane jako biegnące po krzywej w kształcie podkowy , a nie po linii prostej („efekt łuku”), mimo że analizowany proces jest stałą i ciągłą zmianą, którą ludzka intuicja wolałaby postrzegać jako liniową tendencja.
Poza ekologią te same artefakty pojawiają się, gdy analizowane są dane gradientu (np. właściwości gleby wzdłuż transektu biegnącego między 2 różnymi obszarami geologicznymi lub dane behawioralne w ciągu życia osobnika), ponieważ zakrzywione odwzorowanie jest dokładną reprezentacją kształtu danych w przestrzeń wielowymiarowa.
Ter Braak i Prentice (1987, s. 121) cytują badanie symulacyjne analizujące dwuwymiarowe modele upakowania gatunków, co skutkuje lepszą wydajnością DCA w porównaniu z CA.
metoda
DCA to iteracyjny algorytm , który okazał się wysoce niezawodnym i użytecznym narzędziem do eksploracji i podsumowywania danych w ekologii społeczności (Shaw 2003). Rozpoczyna się od przeprowadzenia standardowej ordynacji (CA lub uśredniania odwrotnego) na danych, aby utworzyć początkową krzywą podkowy, w której 1. oś ordynacji zniekształca się w 2. oś. Następnie dzieli pierwszą oś na segmenty (domyślnie = 26) i przeskalowuje każdy segment, aby uzyskać średnią wartość zerową na drugiej osi - to skutecznie spłaszcza krzywą. Przeskalowuje również oś, tak że końce nie są już ściśnięte względem środka, tak że 1 jednostka DCA zbliża się do tego samego tempa obrotu na całej długości danych: praktyczna zasada jest taka, że 4 jednostki DCA oznaczają, że był całkowitym obrotem w społeczności. Ter Braak i Prentice (1987, s. 122) ostrzegają przed nieliniowym przeskalowaniem osi ze względu na problemy z solidnością i zalecają stosowanie wyłącznie detrendowania przez wielomiany.
Wady
Żadne testy istotności nie są dostępne dla DCA, chociaż istnieje ograniczona (kanoniczna) wersja zwana DCCA, w której osie są zmuszane przez wielokrotną regresję liniową do optymalnej korelacji z liniową kombinacją innych (zwykle środowiskowych) zmiennych; pozwala to na testowanie modelu zerowego za pomocą permutacji Monte-Carlo .
Przykład
Przykład pokazuje idealny zestaw danych: dane o gatunkach są w wierszach, próbki w kolumnach. Dla każdej próbki wzdłuż gradientu wprowadzany jest nowy gatunek, ale inny gatunek już nie występuje. Rezultatem jest rzadka macierz. Jedynki wskazują na obecność gatunku w próbce. Z wyjątkiem krawędzi, każda próbka zawiera pięć gatunków.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
SP1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP2 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP3 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP4 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP5 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP6 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP7 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP8 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP9 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP10 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP11 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
SP12 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
SP13 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
SP14 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
SP15 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
SP16 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 0 |
SP17 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 |
SP18 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
SP19 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 |
SP20 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 |
Wykres dwóch pierwszych osi wyniku analizy korespondencji po prawej stronie wyraźnie pokazuje wady tej procedury: efekt krawędziowy, czyli skupienie punktów na krawędziach pierwszej osi, oraz efekt łuku.
Oprogramowanie
Implementacja DCA typu open source, oparta na oryginalnym kodzie FORTRAN, jest dostępna w wegańskim pakiecie R.
Zobacz też
- Analiza własna
- Święcenia (statystyki)
- Seriacja (archeologia) - w tym dodatkowe przykłady efektu łuku
- Analiza głównych składowych
- Hill, Missouri (1979). DECORANA — program FORTRAN do analizy korespondencji zdetrenowanej i uśredniania wzajemności . Sekcja Ekologii i Systematyki, Cornell University, Ithaca, Nowy Jork, 52 pp.
- Hill, MO i Gauch, HG (1980). Analiza korespondencji zniechęconej: ulepszona technika święceń. Wegetacja 42 , 47–58.
- Oksanen J i Minchin PR (1997). Niestabilność ordynacji wynika ze zmian kolejności danych wejściowych: wyjaśnienie i środki zaradcze. Journal of roślinności nauki 8 , 447-454
- Shaw PJA (2003). Statystyki wielowymiarowe dla nauk o środowisku . Londyn: Hodder Arnold
- Ter Braak, CJF i Prentice, IC (1988). Teoria analizy gradientów. Postępy w badaniach ekologicznych 18 , 271–371. ISBN 0-12-013918-9 . Przedruk w: Ter Braak, CJF (1987). Modele unimodalne do powiązania gatunków ze środowiskiem . Wageningen: praca doktorska Grupa Matematyki Rolniczej, 101–146.
Linki zewnętrzne
- PAST (PAlaeontological STatistics) — wolne oprogramowanie zawierające DCA z modyfikacjami według Oksanena i Minchina (1997)
- WINBASP — wolne oprogramowanie, w tym DCA z detrenowaniem przez wielomiany według Ter Braaka i Prentice'a (1988)
- wegańskie: Community Ecology Package for R — darmowe oprogramowanie zawierające funkcję decorana: Detrended Correspondence Analysis and Basic Reciprocal Averaging od Hilla i Gaucha (1980)