Kontrola genomowa
Kontrola genomowa (GC) to metoda statystyczna używana do kontrolowania zakłócających skutków stratyfikacji populacji w genetycznych badaniach asocjacyjnych. Metoda została pierwotnie opisana przez Berniego Devlina i Kathryn Roeder w artykule z 1999 roku. Polega na wykorzystaniu zestawu anonimowych markerów genetycznych do oszacowania wpływu struktury populacji na rozkład statystyki chi-kwadrat . Rozkład statystyk chi-kwadrat dla danego allelu podejrzewa się, że jest powiązany z daną cechą , można następnie porównać z rozkładem tych samych statystyk dla allelu, co do którego oczekuje się, że nie jest związany z tą cechą. Metoda ma obejmować użycie markerów, które nie są połączone z markerem testowanym pod kątem możliwego związku. Teoretycznie wykorzystuje tendencję struktury populacji do powodowania nadmiernego rozproszenia statystyk testowych w analizach asocjacyjnych. Metoda kontroli genomowej jest równie solidna jako projekty oparte na rodzinie, pomimo zastosowania do danych opartych na populacji. Może potencjalnie doprowadzić do zmniejszenia mocy statystycznej do wykrycia prawdziwego związku, a także może nie wyeliminować tendencyjnych skutków stratyfikacji populacji. Bardziej solidną formę metody kontroli genomowej można przeprowadzić, wyrażając badany związek jako dwa testy trendu Cochrana-Armitage'a , a następnie stosując metodę do każdego testu osobno.
Założenie jednorodności populacji w badaniach asocjacyjnych, zwłaszcza w badaniach kliniczno-kontrolnych, może być łatwo naruszone i może prowadzić do błędów zarówno typu I, jak i typu II . Dlatego ważne jest, aby modele zastosowane w badaniu kompensowały strukturę populacji. Problem w badaniach kliniczno-kontrolnych polega na tym, że jeśli istnieje genetyczne zaangażowanie w chorobę, populacja przypadku jest bardziej spokrewniona niż osoby z populacji kontrolnej. Oznacza to, że naruszone zostaje założenie o niezależności obserwacji. Często prowadzi to do przeszacowania znaczenia skojarzenia, ale zależy to od sposobu doboru próby. Jeśli przypadkowo w subpopulacji przypadków występuje wyższa częstość alleli, znajdziesz powiązanie z jakąkolwiek cechą, która jest bardziej rozpowszechniona w populacji przypadków. Ten rodzaj fałszywych skojarzeń wzrasta wraz ze wzrostem populacji próbki, więc problem ten powinien być przedmiotem szczególnej uwagi w badaniach asocjacyjnych na dużą skalę, gdy loci powodują jedynie stosunkowo niewielki wpływ na cechę. Metodę, która w niektórych przypadkach może zrekompensować wyżej opisane problemy, opracowali Devlin i Roeder (1999). Wykorzystuje zarówno a częstości i podejście bayesowskie (to drugie jest odpowiednie, gdy mamy do czynienia z dużą liczbą genów kandydujących ).
Częsty sposób korygowania struktury populacji polega na użyciu znaczników, które nie są powiązane z daną cechą, w celu skorygowania jakiejkolwiek inflacji statystyki spowodowanej strukturą populacji. Metoda została po raz pierwszy opracowana dla cech binarnych, ale od tego czasu została uogólniona dla cech ilościowych. W przypadku metody binarnej, która dotyczy znajdowania różnic genetycznych między populacją badaną i kontrolną, Devlin i Roeder (1999) stosują test trendu Armitage'a
i test _
Allele | aa | Aa | AA | całkowity |
---|---|---|---|---|
Sprawa | R0 | r 1 | r 2 | R |
Kontrola | S0 | s 1 | s 2 | S |
całkowity | N0 | nr 1 | nr 2 | N |
Jeśli populacja znajduje się w równowadze Hardy'ego-Weinberga, obie statystyki są w przybliżeniu równe. Przy hipotezie zerowej o braku rozwarstwienia test trendu ma rozkład asymptotyczny jednym stopniem swobody Chodzi o to, że statystyka jest zawyżona o współczynnik tak, że gdzie zależy od efektu rozwarstwienia. Powyższa metoda opiera się na założeniu, że współczynnik inflacji podlegać różnej selekcji w dwóch populacjach, a ilość Hardy- Nierównowaga Weinberga mierzona współczynnikiem chowu wsobnego F Wrighta nie powinna różnić się między różnymi loci. Ostatni z nich budzi największe obawy. Jeśli efekt stratyfikacji jest podobny w różnych loci można oszacować na podstawie niepowiązanych znaczników
gdzie L jest liczbą niepowiązanych znaczników. Mianownik pochodzi z rozkładu gamma jako solidny estymator . Zasugerowano inne estymatory, na przykład Reich i Goldstein zasugerowali zamiast tego użycie średniej ze statystyk. Nie jest to jedyny sposób oszacowania ale według Bacanu i in. jest to właściwe oszacowanie, nawet jeśli niektóre z niepowiązanych markerów są w rzeczywistości w stanie nierównowagi z miejscem powodującym chorobę lub same są związane z chorobą. Zgodnie z hipotezą zerową i po skorygowaniu o stratyfikację przy użyciu { \ displaystyle \ Przy tej korekcie ogólny poziom błędów typu I powinien być w przybliżeniu równy nawet wtedy, gdy populacja jest rozwarstwiona. Devlin i Roeder (1999) rozważali głównie sytuację, w której daje 95% poziom ufności i nie mniejsze wartości p. Marchini i in. (2004) demonstruje za pomocą symulacji, że kontrola genomowa może prowadzić do antykonserwatywnej wartości p, jeśli ta wartość jest bardzo mała, a dwie populacje (przypadek i kontrola) są bardzo różne. Było to szczególnie problematyczne, jeśli liczba niepowiązanych znaczników była rzędu 50-100. Może to skutkować fałszywymi alarmami (na tym poziomie istotności).