Próbkowanie na odległość
Próbkowanie na odległość to szeroko stosowana grupa ściśle powiązanych metod szacowania zagęszczenia i /lub liczebności populacji . Główne metody opierają się na transektach liniowych lub transektach punktowych . W tej metodzie pobierania próbek zbierane dane to odległości badanych obiektów od tych losowo rozmieszczonych linii lub punktów, a celem jest oszacowanie średniej gęstości obiektów w regionie.
Podstawowa metodologia transektu liniowego
Powszechnym podejściem do próbkowania na odległość jest stosowanie transektów liniowych. Obserwator przemierza linię prostą (umieszczoną przypadkowo lub według zaplanowanego rozkładu). Za każdym razem, gdy obserwują obiekt zainteresowania (np. badane zwierzę), rejestrują odległość od ich aktualnej pozycji do obiektu ( r ), jak również kąt detekcji do linii transektu ( θ ). Odległość obiektu od transektu można wówczas obliczyć jako x = r * sin( θ ). Te odległości x to odległości wykrywania, które będą analizowane w dalszym modelowaniu.
Obiekty są wykrywane na wstępnie określoną maksymalną odległość wykrywania w . Nie wszystkie obiekty w obrębie w zostaną wykryte, ale podstawowym założeniem jest to, że wykrywane są wszystkie obiekty w odległości zerowej (tj. na samej linii). Oczekuje się zatem, że ogólne prawdopodobieństwo wykrycia na linii będzie wynosić 1 i będzie się zmniejszać wraz ze wzrostem odległości od linii. Rozkład obserwowanych odległości służy do oszacowania „funkcji detekcji”, która opisuje prawdopodobieństwo wykrycia obiektu w danej odległości. Biorąc pod uwagę różne podstawowe założenia, funkcja ta pozwala na oszacowanie średniego prawdopodobieństwa P wykrycia obiektu znajdującego się w szerokości w linii. Gęstość obiektów można zatem oszacować jako D = n /( P * a ) , gdzie n to liczba wykrytych obiektów, a a to rozmiar objętego obszaru (całkowita długość transektu ( L ) pomnożona przez 2 w ).
Podsumowując, modelowanie spadku wykrywalności wraz ze wzrostem odległości od transektu pozwala oszacować, ile obiektów łącznie znajduje się na badanym obszarze, na podstawie liczby faktycznie zaobserwowanych obiektów.
Metodologia badania transektów punktowych jest nieco inna. W tym przypadku obserwator pozostaje nieruchomy, badanie kończy się nie po osiągnięciu końca transektu, ale po określonym czasie, a zmierzone odległości do obserwatora są wykorzystywane bezpośrednio, bez przeliczania na odległości poprzeczne. Rodzaje i dopasowanie funkcji wykrywania również różnią się w pewnym stopniu.
Funkcja wykrywania
Spadek wykrywalności wraz ze wzrostem odległości od linii transektu jest modelowany za pomocą funkcji detekcji g( y ) (tutaj y jest odległością od linii). Ta funkcja jest dopasowana do rozkładu zakresów detekcji reprezentowanego jako funkcja gęstości prawdopodobieństwa (PDF). Plik PDF jest histogramem zebranych odległości i opisuje prawdopodobieństwo, że obiekt w odległości y zostanie wykryty przez obserwatora na linii środkowej, przy czym zakłada się, że wykrycia na samej linii ( y = 0) są pewne ( P = 1).
Z preferencji g( y ) jest funkcją solidną , która może reprezentować dane o niejasnych lub słabo zdefiniowanych charakterystykach rozkładu, jak to często ma miejsce w przypadku danych polowych. Powszechnie używanych jest kilka rodzajów funkcji, w zależności od ogólnego kształtu pliku PDF danych wykrywania:
Funkcja wykrywania | Formularz |
---|---|
Mundur | 1/ w |
Półnormalny | exp(- y 2 /2 σ 2 ) |
Stopień zagrożenia | 1-wyr(-( y / σ ) -b ) |
Ujemny wykładniczy | exp(- tak ) |
Tutaj w jest całkowitą odległością obcięcia wykrywania, a a , b i σ są parametrami specyficznymi dla funkcji. Ogólnie uważa się, że funkcje półnormalności i współczynnika ryzyka najprawdopodobniej reprezentują dane terenowe, które zostały zebrane w dobrze kontrolowanych warunkach. Wydaje się, że prawdopodobieństwo wykrycia wzrasta lub pozostaje stałe wraz z odległością od linii transektu, co może wskazywać na problemy z gromadzeniem danych lub projektowaniem badania.
Współzmienne
Rozszerzenia serii
Często stosowaną metodą poprawy dopasowania funkcji detekcji do danych jest wykorzystanie rozwinięć szeregów. Tutaj funkcja jest podzielona na część „kluczową” (typu omówionego powyżej) i część „serii”; tj. g( y ) = klucz( y )[1 + seria( y )]. Szeregi generalnie mają postać wielomianu ( np. wielomian Hermite'a ) i mają na celu zwiększenie elastyczności formy funkcji klucza, umożliwiając jej lepsze dopasowanie do pliku PDF z danymi. Chociaż może to poprawić precyzję oszacowań gęstości/obfitości, jego użycie jest uzasadnione tylko wtedy, gdy zestaw danych ma wystarczającą wielkość i jakość, aby przedstawić wiarygodne oszacowanie rozkładu odległości wykrywania. W przeciwnym razie istnieje ryzyko nadmiernego dopasowania danych i dopuszczenia, aby niereprezentatywna charakterystyka zbioru danych miała wpływ na proces dopasowania.
Założenia i źródła uprzedzeń
Ponieważ próbkowanie na odległość jest stosunkowo złożoną metodą badawczą, wiarygodność wyników modelu zależy od spełnienia szeregu podstawowych założeń. Poniżej wymieniono te najbardziej podstawowe. Dane pochodzące z ankiet, które naruszają jedno lub więcej z tych założeń, często, choć nie zawsze, można w pewnym stopniu skorygować przed analizą lub w jej trakcie.
Założenie | Naruszenie | Profilaktyka/korekta post-hoc | Przykład danych |
---|---|---|---|
Wykrywane są wszystkie zwierzęta na samej linii transektu (tj. P(0) = 1) | Często można to założyć w badaniach naziemnych, ale może to być problematyczne w badaniach na pokładzie. Naruszenie może skutkować silnym błędem szacunków modeli | W badaniach z dwoma obserwatorami jeden obserwator może otrzymać zadanie „pilnowania linii środkowej”. Czasami możliwe są poprawki post-hoc, ale mogą one być skomplikowane. Warto więc unikać jakichkolwiek naruszeń tego założenia |
|
Zwierzęta rozmieszczone są losowo i równomiernie na całym badanym obszarze | Głównymi źródłami uprzedzeń są a) populacje skupione (stada itp.), ale pojedyncze wykrycia są traktowane jako niezależne b) transekty nie są usytuowane niezależnie od gradientów zagęszczenia (drogi, cieki wodne itp.) c) transekty są zbyt blisko siebie |
a) rejestrować nie osobniki, ale klastry + wielkość klastrów, a następnie włączyć oszacowanie wielkości klastrów do funkcji detekcji b) umieszczać transekty losowo lub w poprzek znanych gradientów zagęszczenia c) upewnić się, że maksymalny zasięg detekcji ( w ) nie pokrywa się między transektami |
|
Zwierzęta nie poruszają się przed wykryciem | Wynikające z tego odchylenie jest nieistotne, jeśli ruch jest losowy. Ruch w odpowiedzi na obserwatora (unikanie/przyciąganie) pociągnie za sobą negatywne/pozytywne odchylenie w wykrywalności | Zachowanie polegające na unikaniu jest powszechne i może być trudne do zapobieżenia w terenie. Skutecznym środkiem zaradczym post-hoc jest uśrednienie danych poprzez podzielenie wykrytych przypadków na przedziały i użycie funkcji wykrywania z ramieniem (np. wskaźnik zagrożenia) | |
Pomiary (kąty i odległości) są dokładne | Błędy losowe są nieistotne, ale błędy systematyczne mogą wprowadzać stronniczość. Często dzieje się tak w przypadku zaokrąglania kątów lub odległości do preferowanych („okrągłych”) wartości, co skutkuje spiętrzaniem się przy określonych wartościach. Szczególnie powszechne jest zaokrąglanie kątów do zera | Unikaj martwych obliczeń w terenie, używając dalmierzy i tablic kątowych. Wygładzanie post-hoc danych poprzez podział na interwały wykrywania jest skuteczne w usuwaniu drobnych odchyleń |
Implementacje oprogramowania
Grupa projektowa z University of St Andrews utrzymuje zestaw pakietów do użytku z R , jak również samodzielny program dla Windows.
Dalsza lektura
- El-Shaarawi (red.) „Encyclopedia of Environmetrics”, Wiley-Blackwell, 2012 ISBN 978-0-47097-388-2 , zestaw sześciu tomów.