Wywołanie SNV z danych NGS

Wywołanie SNV z danych NGS to dowolna z szeregu metod identyfikacji istnienia wariantów pojedynczych nukleotydów (SNV) na podstawie wyników eksperymentów sekwencjonowania nowej generacji (NGS). Są to techniki obliczeniowe i różnią się od specjalnych metod eksperymentalnych opartych na znanych polimorfizmach pojedynczych nukleotydów w całej populacji (patrz genotypowanie SNP ). Ze względu na rosnącą obfitość danych NGS techniki te stają się coraz bardziej popularne w przeprowadzaniu genotypowania SNP, z szeroką gamą algorytmów zaprojektowanych dla konkretnych projektów eksperymentalnych i zastosowań. Oprócz zwykłej domeny zastosowania genotypowania SNP, techniki te zostały z powodzeniem przystosowane do identyfikacji rzadkich SNP w populacji, a także wykrywania somatycznych SNV u osobnika przy użyciu wielu próbek tkanek.

Metody wykrywania wariantów linii płciowej

Większość metod wykrywania SNV opartych na NGS ma na celu wykrywanie zmian linii zarodkowej w genomie danej osoby. Są to mutacje, które dana osoba dziedziczy biologicznie po swoich rodzicach i są typowym typem wariantów poszukiwanych podczas przeprowadzania takiej analizy (z wyjątkiem pewnych specyficznych zastosowań, w których poszukuje się mutacji somatycznych ). Bardzo często poszukiwane warianty występują z pewną (być może rzadką) częstotliwością w całej populacji, w takim przypadku można je określić jako polimorfizmy pojedynczego nukleotydu (SNP). Technicznie termin SNP odnosi się tylko do tego rodzaju wariacji, jednak w praktyce są one często używane jako synonim SNV w literaturze dotyczącej wywoływania wariantów. Ponadto, ponieważ wykrycie SNV linii zarodkowej wymaga określenia genotypu osobnika w każdym locus, w odniesieniu do tego procesu można również zastosować wyrażenie „genotypowanie SNP”. Jednak to wyrażenie może również odnosić się do procedur eksperymentalnych w laboratorium mokrym do klasyfikacji genotypów w zestawie znanych lokalizacji SNP.

Zwykły proces takich technik opiera się na:

  1. Filtrowanie zestawu odczytów NGS w celu usunięcia źródeł błędów/stronniczości
  2. Dopasowanie odczytów do genomu odniesienia
  3. Wykorzystanie algorytmu, opartego na modelu statystycznym lub niektórych heurystykach, do przewidywania prawdopodobieństwa zmienności w każdym locus, w oparciu o wyniki jakości i liczbę alleli dopasowanych odczytów w tym locus
  4. Filtrowanie przewidywanych wyników, często w oparciu o metryki istotne dla aplikacji
  5. Adnotacja SNP do przewidywania efektu funkcjonalnego każdej zmiany.

Typowym wynikiem tych procedur jest plik VCF .

Metody probabilistyczne

Pokazano zestaw hipotetycznych odczytów NGS, dopasowanych do sekwencji odniesienia. W locus z adnotacjami odczyty zawierają mieszaninę nukleotydów A/G przeciwko allelowi referencyjnemu A. W zależności od wcześniejszych prawdopodobieństw genotypu i wybranego modelu błędu, można to nazwać heterozygotycznym SNV (przewidywany genotyp AG), nukleotydy G można sklasyfikować jako błędy i nie nazywać żadnego wariantu (przewidywany genotyp AA) lub alternatywnie nukleotydy A można sklasyfikować jako błędy i nazwać homozygotycznym SNV (przewidywany genotyp GG).

W idealnym świecie wolnym od błędów z dużym zasięgiem odczytu zadanie wywołania wariantu z wyników dopasowania danych NGS byłoby proste; w każdym locus (pozycja w genomie) można policzyć liczbę wystąpień każdego odrębnego nukleotydu wśród odczytów wyrównanych w tej pozycji, a prawdziwy genotyp byłby oczywisty; albo AA , jeśli wszystkie nukleotydy pasują do allelu A , BB , jeśli pasują do allelu B , albo AB jeśli jest mieszanka. Jednak podczas pracy z rzeczywistymi danymi NGS tego rodzaju naiwne podejście nie jest stosowane, ponieważ nie może uwzględniać szumu w danych wejściowych. Liczby nukleotydów używane do wywoływania zasad zawierają błędy i stronniczość, zarówno z powodu samych odczytów zsekwencjonowanych, jak i procesu dopasowania. Problem ten można do pewnego stopnia złagodzić poprzez sekwencjonowanie z większą głębokością pokrycia odczytu, jednak jest to często kosztowne, a wiele praktycznych badań wymaga wyciągania wniosków na podstawie danych o niskim pokryciu.

Metody probabilistyczne mają na celu przezwyciężenie powyższego problemu poprzez uzyskanie solidnych szacunków prawdopodobieństw każdego z możliwych genotypów, z uwzględnieniem szumu, a także innych dostępnych wcześniejszych informacji, które można wykorzystać do udoskonalenia szacunków. Genotyp można następnie przewidzieć na podstawie tych prawdopodobieństw, często zgodnie z MAP .

Probabilistyczne metody wywoływania wariantów są oparte na twierdzeniu Bayesa . W kontekście wywoływania wariantów twierdzenie Bayesa definiuje prawdopodobieństwo, że każdy genotyp jest prawdziwym genotypem, biorąc pod uwagę obserwowane dane, w kategoriach wcześniejszych prawdopodobieństw każdego możliwego genotypu oraz rozkładu prawdopodobieństwa danych dla każdego możliwego genotypu. Formuła to:

W powyższym równaniu:

  • danych; to znaczy odczyty wyrównane
  • to genotyp, którego prawdopodobieństwo jest obliczane
  • odnosi się do i- tego możliwego genotypu spośród n możliwości

się w zależności od tego, jak obliczają wcześniejsze prawdopodobieństwa, model błędu używany do modelowania prawdopodobieństw i podział ogólnych genotypów na oddzielne podgenotypy, których prawdopodobieństwa można indywidualnie oszacować w tych ramach.

Wcześniejsza ocena prawdopodobieństwa genotypu

Obliczenie prawdopodobieństw a priori zależy od dostępnych danych z badanego genomu oraz rodzaju przeprowadzanej analizy. W przypadku badań, w których dostępne są dobre dane referencyjne zawierające częstości znanych mutacji (na przykład w badaniu danych dotyczących ludzkiego genomu), te znane częstości genotypów w populacji można wykorzystać do oszacowania a priori. Biorąc pod uwagę częstości alleli w całej populacji, prawdopodobieństwa wcześniejszego genotypu można obliczyć w każdym locus zgodnie z równowagą Hardy'ego-Weinberga . W przypadku braku takich danych można zastosować stałe a priori, niezależnie od miejsca. Można je ustawić za pomocą heurystycznie wybranych wartości, prawdopodobnie na podstawie rodzaju zmian poszukiwanych w badaniu. Alternatywnie, zbadano nadzorowane procedury uczenia maszynowego, które mają na celu poznanie optymalnych wartości wcześniejszych dla osób w próbie, przy użyciu dostarczonych danych NGS od tych osób.

Modele błędów do obserwacji danych

jest podstawą do obliczenia Bayesa. Gdyby założyć, że dane są wolne od błędów, wówczas rozkład obserwowanych zliczeń nukleotydów w każdym locus byłby zgodny z rozkładem dwumianowym , przy czym 100% nukleotydów pasowałoby odpowiednio do allelu A lub B w przypadkach AA i BB , oraz 50% szans każdego nukleotydu pasującego do A lub B w przypadku AB . Jednak w przypadku obecności szumu w odczytywanych danych założenie to zostaje naruszone, a możliwość obecności błędnych nukleotydów w każdym locus.

Prostym modelem błędu jest wprowadzenie małego błędu do terminu prawdopodobieństwa danych w przypadkach homozygotycznych, pozwalając na małe stałe prawdopodobieństwo, że nukleotydy, które nie pasują do allelu A, są obserwowane w przypadku AA , i odpowiednio małe stałe prawdopodobieństwo, że nukleotydy nie pasujące do allelu B obserwuje się w BB sprawa. Dostępne są jednak bardziej wyrafinowane procedury, które próbują bardziej realistycznie odtworzyć rzeczywiste wzorce błędów obserwowane w rzeczywistych danych podczas obliczania warunkowych prawdopodobieństw danych. Na przykład szacunki jakości odczytu (mierzone jako Phred wyniki jakości) zostały uwzględnione w tych obliczeniach, biorąc pod uwagę oczekiwany poziom błędów w każdym indywidualnym odczycie w locus. Inną techniką, którą z powodzeniem włączono do modeli błędów, jest ponowna kalibracja jakości podstawowej, w ramach której obliczane są osobne poziomy błędów – na podstawie wcześniej znanych informacji o wzorcach błędów – dla każdego możliwego podstawienia nukleotydu. Badania pokazują, że każde możliwe zastąpienie nukleotydu nie jest jednakowo prawdopodobne, aby pojawić się jako błąd w danych sekwencjonowania, dlatego zastosowano ponowną kalibrację jakości podstawowej, aby poprawić oszacowania prawdopodobieństwa błędu.

Podział genotypu

W powyższym omówieniu przyjęto, że prawdopodobieństwa genotypu w każdym locus są obliczane niezależnie; to znaczy cały genotyp jest podzielony na niezależne genotypy w każdym locus, których prawdopodobieństwa są obliczane niezależnie. Jednak z powodu nierównowagi sprzężeń genotypy pobliskich loci na ogół nie są niezależne. W rezultacie podział całego genotypu zamiast na sekwencję nakładających się haplotypów umożliwia modelowanie tych korelacji, co skutkuje dokładniejszymi szacunkami prawdopodobieństwa poprzez włączenie częstości haplotypów w całej populacji do wcześniejszego. Wykorzystanie haplotypów do poprawy dokładności wykrywania wariantów zostało z powodzeniem zastosowane, na przykład w projekcie 1000 genomów .

Algorytmy oparte na heurystyce

Jako alternatywę dla metod probabilistycznych istnieją metody heurystyczne do wykonywania wywołań wariantowych na danych NGS. Zamiast modelować rozkład obserwowanych danych i wykorzystywać statystyki bayesowskie do obliczania prawdopodobieństw genotypów, wywołania wariantów są wykonywane na podstawie różnych czynników heurystycznych, takich jak minimalna liczba alleli, wartości graniczne jakości odczytu, granice głębokości odczytu itp. Chociaż były one stosunkowo niepopularne w praktyce w porównaniu z metodami probabilistycznymi, w praktyce ze względu na stosowanie granic i punktów odcięcia mogą być odporne na dane odstające, które naruszają założenia modeli probabilistycznych.

Genom referencyjny użyty do dopasowania

Ważną częścią projektowania metod wywoływania wariantów wykorzystujących dane NGS jest sekwencja DNA używana jako odniesienie, do której dopasowane są odczyty NGS. W badaniach genetyki człowieka dostępne są wysokiej jakości odniesienia, pochodzące ze źródeł takich jak projekt HapMap , które mogą znacznie poprawić dokładność wywołań wariantów wykonywanych przez algorytmy wywoływania wariantów. Jako bonus, takie odniesienia mogą być źródłem wcześniejszych prawdopodobieństw genotypowych dla analizy Bayesowskiej. Jednak w przypadku braku tak wysokiej jakości odniesienia, odczyty uzyskane eksperymentalnie można najpierw złożyć w celu stworzenia sekwencji odniesienia do dopasowania.

Wstępne przetwarzanie i filtrowanie wyników

Istnieją różne metody filtrowania danych w eksperymentach z wywoływaniem wariantów w celu usunięcia źródeł błędów/stronniczości. Może to obejmować usunięcie podejrzanych odczytów przed wykonaniem wyrównania i/lub przefiltrowania listy wariantów zwróconej przez algorytm wywołujący wariant.

W zależności od zastosowanej platformy sekwencjonowania, w zestawie sekwencjonowanych odczytów mogą istnieć różne odchylenia. Na przykład może wystąpić odchylenie nici, gdy występuje bardzo nierówny rozkład kierunków do przodu i do tyłu w odczytach wyrównanych w jakimś sąsiedztwie. Dodatkowo może wystąpić niezwykle duże powielanie niektórych odczytów (na przykład z powodu błędu systematycznego w PCR ). Takie odchylenia mogą skutkować wątpliwymi wywołaniami wariantów - na przykład, jeśli fragment zawierający błąd PCR w jakimś locus zostanie nadmiernie zamplifikowany z powodu odchylenia PCR, to locus będzie miało wysoką liczbę fałszywych alleli i może być nazwane SNV - i dlatego potoki analizy często filtrują wywołania w oparciu o te uprzedzenia.

Metody wykrywania wariantów somatycznych

Oprócz metod, które dopasowują odczyty z poszczególnych próbek do genomu referencyjnego w celu wykrycia wariantów genetycznych linii zarodkowej , odczyty z wielu próbek tkanek w obrębie jednego osobnika można dopasować i porównać w celu wykrycia wariantów somatycznych. Warianty te odpowiadają mutacjom , które wystąpiły de novo w grupach komórek somatycznych u osobnika (to znaczy nie są one obecne w komórkach linii rozrodczej osobnika). Ta forma analizy była często stosowana w badaniach nad rakiem , gdzie wiele badań zaprojektowano wokół badania profilu mutacji somatycznych w tkankach nowotworowych. Takie badania zaowocowały narzędziami diagnostycznymi, które znalazły zastosowanie kliniczne i są wykorzystywane do lepszego naukowego zrozumienia choroby, na przykład poprzez odkrycie nowych genów związanych z rakiem, identyfikację zaangażowanych sieci regulacyjnych genów i szlaków metabolicznych oraz poprzez informowanie modeli jak nowotwory rosną i ewoluują.

Ostatnie zmiany

Do niedawna narzędzia programowe do przeprowadzania tej formy analizy były słabo rozwinięte i opierały się na tych samych algorytmach, które są używane do wykrywania zmienności linii płciowej. Takie procedury nie są zoptymalizowane do tego zadania, ponieważ nie modelują odpowiednio statystycznej korelacji między genotypami obecnymi w wielu próbkach tkanek od tego samego osobnika.

Nowsze badania zaowocowały opracowaniem narzędzi programowych zoptymalizowanych specjalnie do wykrywania mutacji somatycznych w wielu próbkach tkanek. Opracowano techniki probabilistyczne, które zliczają allele ze wszystkich próbek tkanek w każdym locus i przy użyciu modeli statystycznych prawdopodobieństwa występowania genotypów stawów dla wszystkich tkanek oraz rozkładu zliczeń alleli dla danego genotypu są w stanie obliczyć stosunkowo solidne prawdopodobieństwa mutacji somatycznych w każdym locus przy użyciu wszystkich dostępnych danych. Ponadto ostatnio przeprowadzono badania nad uczeniu maszynowym do przeprowadzania tej analizy.

W 2021 r. Konsorcjum Sequencing Quality Control Phase 2 opublikowało szereg badań, w których badano wpływ preparatów próbek, zestawów bibliotek do sekwencjonowania, platform do sekwencjonowania i przepływów pracy bioinformatycznej na dokładność wykrywania somatycznego SNV w oparciu o parę prawidłowych komórek nowotworowych linie, które Konsorcjum ustanowiło jako próbki referencyjne, dane i zestawy wywołań.


Lista dostępnego oprogramowania