Imputacja (genetyka)

Imputacja w genetyce odnosi się do statystycznego wnioskowania o nieobserwowanych genotypach . Osiąga się to poprzez wykorzystanie znanych haplotypów w populacji, na przykład z HapMap lub 1000 Genomes Project u ludzi, umożliwiając w ten sposób testowanie związku między cechą będącą przedmiotem zainteresowania (np. zostały wywnioskowane statystycznie („przypisane”). Imputacja genotypu jest zwykle wykonywana na SNP , najpowszechniejszy rodzaj zmienności genetycznej.

Imputacja genotypu pomaga zatem ogromnie w zawężaniu lokalizacji prawdopodobnie wariantów przyczynowych w badaniach asocjacyjnych całego genomu , ponieważ zwiększa gęstość SNP (wielkość genomu pozostaje stała, ale liczba wariantów genetycznych wzrasta), a tym samym zmniejsza odległość między dwoma sąsiednimi SNP.

Kontekst

W epidemiologii genetycznej i genetyce ilościowej badacze dążą do zidentyfikowania lokalizacji genomowych , w których zmienność między osobnikami jest związana ze zróżnicowaniem cech będących przedmiotem zainteresowania między osobnikami. Takie badania wymagają zatem dostępu do składu genetycznego zbioru osobników. Sekwencjonowanie całego genomu każdego osobnika w badaniu jest często zbyt kosztowne, dlatego można zmierzyć tylko podzbiór genomu. Często oznacza to, po pierwsze, uwzględnianie tylko polimorfizmów pojedynczych nukleotydów (SNP) i zaniedbując warianty liczby kopii , a po drugie, mierząc tylko SNP, o których wiadomo, że są na tyle zmienne w populacji, że prawdopodobnie będą również zmienne w zbiorze rozważanych osobników. Najbardziej pouczający podzbiór SNP jest wybierany na podstawie dystrybucji wspólnej zmienności genetycznej wzdłuż genomu, na przykład wytworzonej przez HapMap lub 1000 Genomes Project u ludzi. Te SNP są następnie wykorzystywane do budowy mikromacierzy , umożliwiając w ten sposób genotypowanie każdej osoby w badaniu we wszystkich tych SNP jednocześnie.

Motywacja

Macierze do genotypowania stosowane w badaniach asocjacyjnych całego genomu (GWAS) są oparte na znakowaniu SNP i dlatego nie genotypują bezpośrednio wszystkich zmian w genomie. Przypisanie genotypów panelowi referencyjnemu, który został genotypowany dla większej liczby wariantów, zwiększa zasięg zmienności genomowej poza oryginalnymi genotypami. W konsekwencji można ocenić wpływ większej liczby SNP niż na oryginalną mikromacierz. Co ważne, imputacja ułatwiła metaanalizę zestawów danych, które zostały genotypowane na różnych macierzach, zwiększając nakładanie się wariantów dostępnych do analizy między macierzami.

Narzędzia

Dostępnych jest kilka pakietów oprogramowania do przypisywania genotypów z tablicy genotypowania do paneli referencyjnych, takich jak haplotypy 1000 Genomes Project. Narzędzia te obejmują MaCH Minimac, IMPUTE2 i Beagle. Każde narzędzie zapewnia określone zalety i wady pod względem szybkości i dokładności. Dodatkowe narzędzia fazowania, takie jak SHAPEIT2, umożliwiają wstępne fazowanie haplotypów wejściowych w celu poprawy dokładności imputacji i wydajności obliczeniowej.

We wczesnym użyciu imputacji haplotypy z populacji HapMap były używane jako panel referencyjny, ale udało się to dzięki dostępności haplotypów z projektu 1000 genomów jako paneli referencyjnych z większą liczbą próbek, w bardziej zróżnicowanych populacjach i z większą gęstością markerów genetycznych . Od połowy 2014 r. Dane dotyczące sekwencji całego genomu są publicznie dostępne na stronie internetowej projektu 1000 genomów dla 2535 osób z 26 różnych populacji na całym świecie.

Modele statystyczne

Projektowanie dokładnych modeli statystycznych do imputacji genotypu jest ściśle związane z problemem szacowania haplotypów („fazowania”) i jest aktywnym obszarem badań.

Zobacz też