Szacowanie haplotypów
W genetyce szacowanie haplotypów ( znane również jako „fazowanie”) odnosi się do procesu statystycznego szacowania haplotypów na podstawie danych genotypowych . Najczęstsza sytuacja ma miejsce, gdy genotypy są zbierane w zestawie miejsc polimorficznych od grupy osobników. Na przykład w genetyce człowieka badania asocjacyjne całego genomu zbierają genotypy tysięcy osobników w zakresie od 200 000 do 5 000 000 SNP przy użyciu mikromacierzy. Metody szacowania haplotypów są wykorzystywane w analizie tych zbiorów danych i umożliwiają imputację genotypu alleli z referencyjnych baz danych, takich jak projekt HapMap i projekt 1000 genomów .
Genotypy i haplotypy
Genotypy mierzą nieuporządkowaną kombinację alleli w każdym miejscu, podczas gdy haplotypy to dwie sekwencje alleli, które zostały odziedziczone razem od rodziców danej osoby. Kiedy heterozygotyczne genotypy, będzie haplotypów, które mogłyby leżeć u podstaw genotypów Na przykład, gdy , mamy następujące haplotypy: AA/TT, AT/TA, TA/AT i TT/AA. Jeśli brakuje genotypów, liczba możliwych par haplotypów wzrasta.
Metody szacowania haplotypów
Zaproponowano wiele metod statystycznych do szacowania haplotypów. Niektóre z najwcześniejszych podejść wykorzystywały prosty model wielomianowy, w którym każdemu możliwemu haplotypowi zgodnemu z próbką nadano nieznany parametr częstotliwości, a parametry te oszacowano za pomocą algorytmu maksymalizacji oczekiwań . Podejścia te były w stanie obsłużyć tylko niewielką liczbę miejsc jednocześnie, chociaż później opracowano wersje sekwencyjne, w szczególności metodę SNPHAP.
Najbardziej dokładne i szeroko stosowane metody szacowania haplotypów wykorzystują pewną formę ukrytego modelu Markowa (HMM) do przeprowadzania wnioskowania. Przez długi czas PHASE była najdokładniejszą metodą. Projekt PHASE był pierwszą metodą wykorzystującą koncepcje teorii koalescencyjnej dotyczące wspólnego rozmieszczenia haplotypów. Ta metoda wykorzystywała próbkowanie Gibbsa podejście, w którym haplotypy każdego osobnika były aktualizowane w zależności od bieżących szacunków haplotypów ze wszystkich innych próbek. Do warunkowych rozkładów próbnika Gibbsa zastosowano przybliżenia rozkładu haplotypu zależnego od zestawu innych haplotypów. PHASE został wykorzystany do oszacowania haplotypów z projektu HapMap . Projekt PHASE był ograniczony szybkością i nie miał zastosowania do zbiorów danych pochodzących z badań asocjacyjnych całego genomu.
Metody fastPHASE i BEAGLE wprowadziły modele klastrów haplotypów mające zastosowanie do zbiorów danych o rozmiarze GWAS . Następnie wprowadzono metody IMPUTE2 i MaCH, które były podobne do podejścia PHASE, ale znacznie szybsze. Metody te iteracyjnie aktualizują oszacowania haplotypów każdej próbki w zależności od podzbioru oszacowań haplotypów K innych próbek. W ramach projektu IMPUTE2 wprowadzono pomysł starannego wyboru podzbioru haplotypów, na których należy uzależnić, aby poprawić dokładność. ale z kwadratową .
Metoda SHAPEIT1 dokonała znacznego postępu, wprowadzając liniową haplotypów zgodnych z Metoda HAPI-UR następnie zaproponowała bardzo podobną metodę. SHAPEIT2 łączy w sobie najlepsze cechy SHAPEIT1 i IMPUTE2 w celu poprawy wydajności i dokładności.
Zobacz też
- Lista oprogramowania do szacowania haplotypów i imputacji genotypów
- imputacja : przewidywanie brakujących genotypów przy użyciu znanych haplotypów