Wynik poligeniczny

Ilustracja rozkładu i zdolności stratyfikacji poligenicznej oceny ryzyka. Lewy panel pokazuje, jak w prognozach ryzyka choroby PRS na osi x może oddzielić przypadki (tj. osoby z chorobą) od grupy kontrolnej (osoby bez choroby). Oś y opisuje, ile osób w każdej grupie ma przypisany określony PRS. Po prawej ta sama populacja jest podzielona na trzy grupy zgodnie z przewidywanym ryzykiem, przypisanym PRS. Zaobserwowane ryzyko jest pokazane na osi y, a rozdzielenie grup odpowiada przewidywanemu ryzyku.

W genetyce wynik poligeniczny ( PGS ), zwany także wskaźnikiem poligenicznym ( PGI ), wynikiem ryzyka poligenicznego ( PRS ), wynikiem ryzyka genetycznego lub wynikiem całego genomu , to liczba, która podsumowuje szacowany wpływ wielu wariantów genetycznych na fenotyp osobnika , zwykle obliczany jako ważona suma alleli związanych z cechą . Odzwierciedla szacunkowe predyspozycje genetyczne danej osoby do danej cechy i może służyć jako predyktor tej cechy. Innymi słowy, daje oszacowanie prawdopodobieństwa posiadania danej cechy przez daną osobę wyłącznie na podstawie genetyki, bez uwzględnienia czynników środowiskowych. Oceny poligeniczne są szeroko stosowane w hodowli zwierząt i hodowli roślin (zwykle określane jako przewidywanie genomowe lub selekcja genomowa ) ze względu na ich skuteczność w ulepszaniu hodowli zwierząt gospodarskich i upraw. U ludzi wyniki poligeniczne są zwykle generowane na podstawie badania asocjacyjnego całego genomu (GWAS).

Niedawny postęp w genetyce umożliwił stworzenie wielogenowych predyktorów złożonych cech człowieka, w tym ryzyka wielu ważnych złożonych chorób , na które zazwyczaj wpływa wiele wariantów genetycznych, z których każdy ma niewielki wpływ na ogólne ryzyko. W wielogenowym predyktorze ryzyka ryzyko choroby przez całe życie (lub przedział wiekowy) jest funkcją liczbową uchwyconą przez wynik, który zależy od stanów tysięcy indywidualnych wariantów genetycznych (tj. polimorfizmów pojedynczego nukleotydu lub SNP ) .

Wyniki poligeniczne są obszarem intensywnych badań naukowych: każdego roku powstają setki artykułów na takie tematy, jak algorytmy uczenia się do przewidywania genomu, szkolenie nowych predyktorów, testowanie walidacyjne predyktorów, kliniczne zastosowanie PRS. W 2018 roku American Heart Association uznało wielogenowe oceny ryzyka za jeden z głównych przełomów w badaniach nad chorobami serca i udarem mózgu.

Tło

DNA w organizmach żywych to książka kucharska tworzenia życia. U ludzi DNA to ciąg czterech zasad nukleotydowych (tyminy, guaniny, cytozyny i adenozyny) znajdujących się w 23 chromosomach. W sumie każda komórka ludzkiego ciała zawiera około 3 miliardów zasad. Ludzki genom można zasadniczo podzielić na sekwencje kodujące i niekodujące. Genom kodujący stanowi niewielką część wszystkich zasad i koduje instrukcje dla genów , z których część koduje białka . Funkcja pozostałych niekodujących i innych części ludzkiego genomu jest nadal badana przez naukowców. Badania asocjacyjne całego genomu umożliwiają mapowanie fenotypów lub cech u ludzi lub gatunków innych niż człowiek na zmienność zasad nukleotydowych w populacjach ludzkich. Ulepszenia metodologii i badania z dużymi kohortami umożliwiły mapowanie genomu ludzkiego wielu cech, z których część to choroby. Wiedza o tym, które odmiany i jak silnie wpływają na określone cechy, stanowi kluczowy element konstruowania wyników poligenicznych u ludzi.

Historia

Wczesny (2006) przykład oceny ryzyka genetycznego zastosowanej do cukrzycy typu 2 u ludzi. Osoby z cukrzycą typu 2 (białe słupki) mają wyższy wynik niż grupa kontrolna (czarne słupki).

Chociaż wielogenowe oceny ryzyka zyskały większą uwagę u ludzi, po raz pierwszy wprowadzono podstawową koncepcję selektywnej hodowli roślin i zwierząt. Podobnie jak w przypadku nowoczesnych podejść do konstruowania wyniku ryzyka poligenicznego, wartość hodowlana osobnika była sumą wagi polimorfizmu pojedynczego nukleotydu według ich wpływu na cechę. Metody te zostały po raz pierwszy zastosowane u ludzi pod koniec 2000 roku, poczynając od propozycji z 2007 roku, aby te wyniki można było wykorzystać w genetyce człowieka do identyfikacji osób o wysokim ryzyku choroby. Zostało to z powodzeniem zastosowane w badaniach empirycznych po raz pierwszy w 2009 roku przez naukowców, którzy zorganizowali badanie asocjacyjne całego genomu (GWAS) schizofrenii w celu skonstruowania ocen skłonności do ryzyka. Badanie to było również pierwszym, w którym użyto terminu wynik poligeniczny do prognozy wyciągniętej z liniowej kombinacji genotypów polimorfizmu pojedynczego nukleotydu (SNP), która była w stanie wyjaśnić 3% wariancji w schizofrenii.

Obliczanie wyniku ryzyka poligenicznego

Wynik poligeniczny (PGS) lub indeks poligeniczny (PGI) jest konstruowany z „wag” pochodzących z badania asocjacyjnego całego genomu (GWAS). W GWAS polimorfizmy pojedynczych nukleotydów (SNP) są testowane pod kątem związku między przypadkami i kontrolami. Wyniki z GWAS zapewniają siłę związku, np. wielkość efektu i wartość p dla istotności statystycznej. Wielkość efektu uzyskana z GWAS dla SNP jest często określana jako „waga”. Typowy wynik ryzyka wielogenowego jest następnie obliczany przez dodanie liczby alleli zwiększających ryzyko w dużej liczbie SNP, z których każdy pomnożony jest przez tę wagę. W formie matematycznej szacowany wynik poligeniczny otrzymuje się jako sumę m liczby SNP z allelami zwiększającymi ryzyko ważonymi ich wagami, .

Pomysł ten można uogólnić na badanie dowolnej cechy i jest przykładem bardziej ogólnej analizy regresji terminów matematycznych .

Kluczowe kwestie do rozważenia podczas opracowywania wyników poligenicznych

Metody generowania wyników poligenicznych u ludzi są aktywnym obszarem badań. Kluczową kwestią przy opracowywaniu wyników poligenicznych jest to, które SNP i liczbę SNP należy uwzględnić. Najprostsza tak zwana metoda konstrukcji „przycinania i progowania” ustawia wagi równe oszacowaniom współczynników z regresji cechy dla każdego wariantu genetycznego. Zawarte SNP można wybrać za pomocą algorytmu, który stara się zapewnić, że każdy marker jest w przybliżeniu niezależny. Niezależność każdego SNP jest ważna dla predykcyjnej dokładności wyniku. SNP, które są fizycznie blisko siebie, są bardziej narażone na nierównowagę sprzężeń , co oznacza, że ​​często są dziedziczone razem i dlatego nie zapewniają niezależnej mocy predykcyjnej. To właśnie nazywa się „przycinaniem”. „Progi” odnoszą się tylko do włączenia SNP, które spełniają określony próg wartości p. Regresja z karą może być również wykorzystana do konstruowania wyników poligenicznych. Regresję z karą można interpretować jako umieszczanie informacyjnych wcześniejszych prawdopodobieństw dotyczących tego, ile wariantów genetycznych ma wpłynąć na cechę oraz rozkład wielkości ich efektów. Innymi słowy, metody te w efekcie „karają” duże współczynniki w modelu regresji i konserwatywnie je zmniejszają. Jednym z popularnych narzędzi do tego podejścia jest „PRS-CS”. Innym podejściem jest użycie Metody bayesowskie po raz pierwszy zaproponowano w 2001 r. Podejścia bayesowskie bezpośrednio uwzględniają cechy genetyczne badanej cechy i cechy genomowe, takie jak nierównowaga sprzężeń. Jedna z najpopularniejszych współczesnych metod bayesowskich wykorzystuje „przewidywanie nierównowagi sprzężeń” ( LDpred w skrócie). Nadal opisuje się wiele innych podejść do opracowywania wielogenowych ocen ryzyka. Na przykład, poprzez włączenie wielkości efektu z populacji o różnym pochodzeniu, można poprawić zdolność predykcyjną PRS. Uwzględnienie wiedzy na temat ról funkcjonalnych określonych fragmentów genomu może również prowadzić do poprawy użyteczności wielogenowych ocen ryzyka. W badaniach zbadano wydajność tych metod na znormalizowanych zbiorach danych

Zastosowanie u ludzi

Ponieważ liczba badań asocjacyjnych całego genomu eksplodowała, wraz z gwałtownym postępem w metodach obliczania wyników poligenicznych, najbardziej oczywistym zastosowaniem jest to w warunkach klinicznych do przewidywania choroby lub stratyfikacji ryzyka. Ważne jest, aby nie zawyżać ani nie zaniżać wartości wyników poligenicznych. Kluczową zaletą ilościowego określania wkładu poligenicznego dla każdej osoby jest to, że odpowiedzialność genetyczna nie zmienia się w ciągu życia jednostki. Jednakże, chociaż choroba może mieć silny wkład genetyczny, ryzyko wynikające z genetyki należy interpretować w kontekście czynników środowiskowych. Na przykład, nawet jeśli dana osoba ma wysokie genetyczne ryzyko alkoholizmu, ryzyko to jest nieaktualne, jeśli ta osoba nigdy nie była narażona na alkohol.

Użyteczność kliniczna wyników poligenicznych

Przełomowe badanie oceniające rolę wielogenowych ocen ryzyka w chorobach układu krążenia ożywiło zainteresowanie klinicznym potencjałem wielogenowych ocen. Badanie to wykazało, że osoba z najwyższym wynikiem ryzyka wielogenowego (górny 1%) miała ryzyko sercowo-naczyniowe w ciągu całego życia >10%, co było porównywalne z osobami z rzadkimi wariantami genetycznymi. To porównanie jest ważne, ponieważ na praktykę kliniczną można wpływać wiedząc, które osoby mają tę rzadką genetyczną przyczynę chorób sercowo-naczyniowych. Od czasu tego badania wielogenowe oceny ryzyka okazały się obiecujące w przewidywaniu chorób w odniesieniu do innych cech. Oceny ryzyka wielogenowego były intensywnie badane w przypadku otyłości, choroby wieńcowej, cukrzycy, raka piersi, raka prostaty, choroby Alzheimera i chorób psychicznych.

Predykcyjna wydajność u ludzi

W przypadku ludzi, podczas gdy większość wyników poligenicznych nie jest wystarczająco predykcyjna, aby zdiagnozować chorobę, można je potencjalnie wykorzystać jako dodatek do innych zmiennych towarzyszących (takich jak wiek, BMI, palenie tytoniu) w celu poprawy szacunków podatności na choroby. Jednak nawet jeśli wynik poligeniczny może nie zapewniać wiarygodnych prognoz diagnostycznych w całej populacji, może nadal zapewniać bardzo dokładne prognozy dla wartości odstających przy skrajnie wysokim lub niskim ryzyku. Użyteczność kliniczna może zatem nadal być duża, nawet jeśli średnie miary skuteczności przewidywania są umiarkowane.

Chociaż problemy, takie jak gorsze wyniki predykcyjne u osób pochodzenia pozaeuropejskiego, ograniczają powszechne stosowanie, kilku autorów zauważyło, że wiele wariantów przyczynowych leżących u podstaw wspólnej zmienności genetycznej u Europejczyków występuje na różnych kontynentach w przypadku (np.) BMI i cukrzycy typu 2 w populacjach afrykańskich jak również schizofrenii w populacjach chińskich. Inni badacze uznają, że poligeniczne niedoszacowanie w populacji pozaeuropejskiej powinno pobudzić nowe GWAS, które traktują priorytetowo większą różnorodność genetyczną, aby zmaksymalizować potencjalne korzyści zdrowotne wynikające z predykcyjnych wyników poligenicznych. W tym celu podejmowane są znaczące wysiłki naukowe [ potrzebne źródło ] .

Genetyczne badania przesiewowe zarodków są powszechne i każdego roku na całym świecie poddawane są milionom biopsji i testów. Opracowano metody genotypowania, dzięki którym genotyp zarodka można określić z dużą precyzją. Testy na obecność aneuploidii i chorób monogenetycznych są coraz bardziej ugruntowane na przestrzeni dziesięcioleci, podczas gdy testy na choroby poligeniczne zaczęto stosować od niedawna, ponieważ po raz pierwszy zastosowano je w selekcji zarodków w 2019 r. Stosowanie punktacji poligenicznych do selekcji zarodków było krytykowane ze względu na rzekome kwestie etyczne i bezpieczeństwa, a także ograniczoną użyteczność praktyczną. Jednak przedstawiono oceny specyficzne dla cech, które twierdzą, że jest inaczej, i przedstawiono również etyczne argumenty przemawiające za selekcją zarodków w oparciu o PGS. Temat nadal jest aktywnym obszarem badań nie tylko w ramach genomiki, ale także w zastosowaniach klinicznych i etyce.

Od 2019 r. Na podstawie statystyk asocjacyjnych całego genomu opracowano wyniki poligeniczne z ponad stu fenotypów. Obejmują one wyniki, które można sklasyfikować jako antropometryczne, behawioralne, sercowo-naczyniowe, choroby nienowotworowe, psychiatryczne/neurologiczne oraz odpowiedzi na leczenie/leki.

Przewidywana a rzeczywista wysokość przy użyciu poligenicznej oceny ryzyka

Przykłady wydajności przewidywania choroby

Podczas przewidywania ryzyka choroby PGS daje ciągły wynik, który szacuje ryzyko zachorowania lub zachorowania na chorobę w określonym z góry przedziale czasowym. Powszechną miarą oceny takich ciągłych ocen pytań tak/nie (patrz Klasyfikacja binarna ) jest pole pod krzywą ROC (AUC). Niektóre przykładowe wyniki wydajności PGS, mierzone w AUC (0 ≤ AUC ≤ 1, gdzie większa liczba oznacza lepsze przewidywanie), obejmują:

  • W 2018 r. AUC ≈ 0,64 dla choroby wieńcowej przy użyciu ~ 120 000 Brytyjczyków.
  • W 2019 r. AUC ≈ 0,63 dla raka piersi, opracowane na podstawie ~ 95 000 przypadków i ~ 75 000 kontroli pochodzenia europejskiego.
  • W 2019 r. AUC ≈ 0,71 dla niedoczynności tarczycy dla ~ 24 000 przypadków i ~ 463 00 osób z grupy kontrolnej pochodzenia europejskiego.
  • W 2020 r. AUC ≈ 0,71 dla schizofrenii, przy użyciu 90 kohort, w tym ~ 67 000 przypadków i ~ 94 000 kontroli, z ~ 80% pochodzenia europejskiego i ~ 20% pochodzenia wschodnioazjatyckiego. Należy zauważyć, że te wyniki wykorzystują jako dane wejściowe informacje czysto genetyczne; w tym dodatkowe informacje, takie jak wiek i płeć, często znacznie poprawiają prognozy. Powyższy predyktor choroby wieńcowej i predyktor niedoczynności tarczycy osiągają wartości AUC odpowiednio ~0,80 i ~0,78, uwzględniając również wiek i płeć.

Znaczenie wielkości próby

Wydajność predyktora PGS wzrasta wraz z rozmiarem próbki zestawu danych dostępnej do szkolenia. Tutaj zilustrowano nadciśnienie, niedoczynność tarczycy i cukrzycę typu 2. Oś x oznacza liczbę przypadków (tj. osób z chorobą) obecnych w danych treningowych i wykorzystuje skalę logarytmiczną. Cały zakres wynosi od 1000 do ponad 100 000 skrzynek. Liczba kontroli (tj. osób bez choroby) w danych treningowych była znacznie większa niż liczba przypadków. Te konkretne predyktory zostały przeszkolone przy użyciu LASSO .

Wydajność predyktora poligenicznego jest w dużym stopniu zależna od rozmiaru zestawu danych, który jest dostępny do analizy i szkolenia ML. Niedawny postęp naukowy w zakresie mocy predykcyjnej opiera się w dużej mierze na tworzeniu i rozszerzaniu dużych biobanków zawierających dane dotyczące zarówno genotypów, jak i fenotypów bardzo wielu osobników. Od 2021 r. istnieje kilka biobanków z setkami tysięcy próbek, tj. wpisami danych zawierającymi zarówno informacje genetyczne, jak i informacje o cechach każdego osobnika (patrz na przykład niepełna lista biobanków ).

Korzystając z tych rosnących biobanków, dane od wielu tysięcy osobników są wykorzystywane do wykrywania odpowiednich wariantów dla określonej cechy. Dokładnie, ile jest wymaganych, zależy w dużej mierze od danej cechy. Zazwyczaj wzrastające poziomy predykcji są obserwowane aż do fazy plateau, w której wydajność się ustabilizuje i nie zmienia się zbytnio przy dalszym zwiększaniu wielkości próby. Jest to granica dokładności predyktora poligenicznego, który wykorzystuje tylko informację genetyczną i jest ustalana przez dziedziczność określonej cechy. Wielkość próbki wymagana do osiągnięcia tego poziomu wydajności dla określonej cechy zależy od złożoności podstawowej architektury genetycznej i rozkładu wariancji genetycznej w próbkowanej populacji. Ta zależność wielkości próby jest zilustrowana na rysunku dla niedoczynności tarczycy, nadciśnienia tętniczego i cukrzycy typu 2.

Należy ponownie zauważyć, że obecne metody konstruowania predyktorów poligenicznych są wrażliwe na przodków obecnych w danych. Od 2021 r. większość dostępnych danych dotyczyła głównie populacji o europejskim pochodzeniu, co jest powodem, dla którego PGS generalnie radzi sobie lepiej w ramach tego pochodzenia. Konieczna jest budowa bardziej zróżnicowanych biobanków z udaną rekrutacją ze wszystkich przodków, aby naprawić ten wypaczony dostęp do medycyny opartej na PGS i korzyści z niej płynące.

Obecne wykorzystanie ocen ryzyka wielogenowego u ludzi

Świadczenie PRS bezpośrednio osobom fizycznym przechodzi już próby badawcze w systemach opieki zdrowotnej na całym świecie, ale nie jest jeszcze oferowane jako standard opieki. Większość obecnych zastosowań przez osoby fizyczne polega zatem na konsumenckich testach genetycznych , w ramach których wiele prywatnych firm zgłasza PRS dla wielu chorób i cech. Konsumenci pobierają dane dotyczące genotypu (wariantu genetycznego) i przesyłają je do internetowych kalkulatorów PRS, np. Scripps Health , Impute.me lub Color Genomics . Najczęściej zgłaszaną motywacją do szukania raportów PRS jest ogólna ciekawość (98,2%), a reakcje są na ogół mieszane z powszechnymi błędnymi interpretacjami. Spekuluje się, że stosowanie PRS bezpośrednio przez pacjentów może przyczynić się do wyboru leczenia, ale potrzeba więcej danych, aby umożliwić rozwój PRS w tym kontekście. Bardziej typowym bieżącym przypadkiem użycia jest zatem sytuacja, w której klinicyści mają do czynienia z osobami z komercyjnym PRS specyficznym dla choroby w oczekiwaniu, że klinicysta je zinterpretuje, co może stworzyć dodatkowe obciążenia dla systemu opieki klinicznej.

Korzyści u ludzi

W przeciwieństwie do wielu innych klinicznych metod laboratoryjnych lub obrazowych, ryzyko genetyczne danej linii zarodkowej można obliczyć przy urodzeniu dla różnych chorób po jednokrotnym zsekwencjonowaniu ich DNA. Zatem wyniki poligeniczne mogą ostatecznie być opłacalnym środkiem, który może być informacyjny dla zarządzania klinicznego. Co więcej, punktacja ryzyka poligenicznego może być pouczająca przez całe życie danej osoby, pomagając w ilościowym określeniu genetycznego ryzyka niektórych chorób przez całe życie. W przypadku wielu chorób duże ryzyko genetyczne może skutkować wcześniejszym wystąpieniem objawów (np. rodzinna hipercholesterolemia). Wcześniejsze rozpoznanie zwiększonego obciążenia genetycznego może pozwolić klinicystom na wcześniejszą interwencję i uniknięcie opóźnionych diagnoz. Wynik wielogenowy można łączyć z tradycyjnymi czynnikami ryzyka w celu zwiększenia użyteczności klinicznej. Na przykład wielogenowe oceny ryzyka pomagają poprawić diagnostykę chorób. Jest to szczególnie widoczne w odróżnianiu cukrzycy typu 1 od typu 2. Podobnie podejście oparte na ocenie ryzyka wielogenowego może zmniejszyć inwazyjne procedury diagnostyczne, jak wykazano w przypadku celiakii. Wyniki poligeniczne mogą również umożliwić jednostkom zmianę stylu życia w celu zmniejszenia ryzyka chorób. Chociaż istnieją pewne dowody na modyfikację zachowania w wyniku znajomości własnych predyspozycji genetycznych, potrzeba więcej pracy, aby ocenić zachowania modyfikujące ryzyko w różnych stanach chorobowych. Badanie przesiewowe na poziomie populacji to kolejny przypadek użycia wyników poligenicznych. Celem badań przesiewowych na poziomie populacji jest zidentyfikowanie pacjentów z wysokim ryzykiem choroby, którzy odnieśliby korzyść z istniejącego leczenia. Wyniki poligeniczne mogą zidentyfikować podzbiór populacji wysokiego ryzyka, który mógłby odnieść korzyści z badań przesiewowych. Prowadzonych jest kilka badań klinicznych nad rakiem piersi, a choroby serca to kolejny obszar, który mógłby odnieść korzyści z programu badań przesiewowych opartych na wynikach poligenicznych.

Wyzwania i zagrożenia w kontekstach klinicznych

Na podstawowym poziomie korzystanie z wyników poligenicznych w kontekście klinicznym będzie wiązało się z podobnymi problemami technicznymi, jak w przypadku istniejących narzędzi. Na przykład, jeśli narzędzie nie zostanie zweryfikowane w zróżnicowanej populacji, może pogłębić dysproporcje z nierówną skutecznością w populacjach. Jest to szczególnie ważne w genetyce, gdzie większość dotychczasowych badań przeprowadzono na Europejczykach. Inne wyzwania, które mogą się pojawić, obejmują to, jak dokładnie można obliczyć wynik ryzyka poligenicznego i jak dokładny musi być, aby był użyteczny klinicznie. Nawet jeśli wynik poligeniczny jest dokładnie obliczony i skalibrowany dla populacji, do jego interpretacji należy podchodzić z ostrożnością. Po pierwsze, ważne jest, aby zdać sobie sprawę, że cechy poligeniczne różnią się od cech monogenicznych; te ostatnie wynikają z mniejszej liczby loci genetycznych i można je wykryć dokładniej. Testy genetyczne są często trudne do interpretacji i wymagają poradnictwa genetycznego. Obecnie wyniki oceny wielogenowej są udostępniane klinicystom. Ponieważ monogeniczne testy genetyczne są znacznie bardziej dojrzałe niż wyniki poligeniczne, możemy tam szukać przybliżonego wpływu klinicznego wyników poligenicznych. Podczas gdy niektóre badania wykazały negatywne skutki zwracania monogenicznych wyników genetycznych pacjentom, większość badań wskazuje, że negatywne konsekwencje są niewielkie.

Aplikacje nieprzewidujące

Istnieje wiele zastosowań wyników poligenicznych. U ludzi wyniki poligeniczne zostały pierwotnie obliczone w celu przewidzenia częstości występowania i etiologii złożonych, dziedzicznych chorób, na które zazwyczaj wpływa wiele wariantów genetycznych, które indywidualnie nadają niewielki wpływ na ogólne ryzyko. Ponadto wynik poligeniczny można wykorzystać na kilka różnych sposobów: jako dolną granicę do sprawdzenia, czy szacunki odziedziczalności mogą być obciążone; jako miara genetycznego nakładania się cech ( korelacja genetyczna ), co może wskazywać np. na wspólne podstawy genetyczne grup zaburzeń psychicznych; jako środek do oceny różnic między grupami pod względem cechy, takiej jak wzrost, lub do badania zmian cechy w czasie w wyniku naturalnego wskazującego na miękkie selektywne przemiatanie (jak np. w przypadku inteligencji, gdzie zmiany częstotliwości byłyby zbyt małe, aby wykryć każde pojedyncze trafienie, ale nie na ogólny wynik poligeniczny); w randomizacji mendlowskiej (zakładając brak plejotropii z odpowiednimi cechami); wykrywanie i kontrolowanie obecności pomyłek genetycznych w wynikach (np. korelacja schizofrenii z ubóstwem); lub w celu zbadania i korelacji gen-środowisko

Zastosowania u gatunków innych niż człowiek

Zaletą wyników poligenicznych jest to, że można je wykorzystać do przewidywania przyszłości upraw, hodowli zwierząt i ludzi. Chociaż te same podstawowe koncepcje leżą u podstaw tych obszarów prognozowania, napotykają one różne wyzwania, które wymagają różnych metodologii. Zdolność do tworzenia bardzo dużej rodziny u gatunków innych niż ludzie, której towarzyszy celowa selekcja, prowadzi do mniejszej efektywnej populacji, wyższego stopnia nierównowagi powiązań między osobnikami i wyższego średniego pokrewieństwa genetycznego między osobnikami w populacji. Na przykład przedstawiciele ras roślin i zwierząt, które skutecznie stworzyli ludzie, na przykład współczesne kukurydza lub bydło domowe są technicznie „spokrewnione”. Z kolei w przewidywaniu genomu człowieka wybiera się niespokrewnione osobniki w dużych populacjach w celu oszacowania skutków wspólnych SNP. Ze względu na mniejszą efektywną populację zwierząt gospodarskich średni współczynnik związku między dowolnymi dwoma osobnikami jest prawdopodobnie wysoki, a powszechne SNP będą oznaczać warianty przyczynowe w większej odległości fizycznej niż u ludzi; jest to główny powód niższych szacunków odziedziczalności opartych na SNP dla ludzi w porównaniu z żywym inwentarzem. Jednak w obu przypadkach wielkość próbki jest kluczem do maksymalizacji dokładności przewidywania genomu.

Podczas gdy współczesna punktacja przewidywania genomu u ludzi jest ogólnie określana jako „wynik poligeniczny” (PGS) lub „wynik ryzyka poligenicznego” (PRS), w przypadku zwierząt gospodarskich bardziej powszechnym terminem jest „szacowana wartość hodowlana genomu” lub GEBV (podobny do bardziej znany „EBV”, ale z danymi genotypowymi). Koncepcyjnie GEBV jest tym samym, co PGS: liniową funkcją wariantów genetycznych, z których każdy jest ważony widocznym efektem wariantu. Mimo to prognozy poligeniczne u zwierząt gospodarskich są przydatne z zasadniczo innego powodu niż w przypadku ludzi. U ludzi PRS jest używany do przewidywania indywidualnego fenotypu, podczas gdy u zwierząt gospodarskich GEBV jest zwykle używany do przewidywania średniej wartości fenotypu będącego przedmiotem zainteresowania potomstwa pod względem materiału genetycznego, który odziedziczył po rodzicu. W ten sposób GEBV można rozumieć jako średnią potomstwa osobnika lub pary osobników. GEBV są również zwykle przekazywane w jednostkach cechy będącej przedmiotem zainteresowania. Na przykład oczekiwany wzrost produkcji mleka potomstwa określonego rodzica w porównaniu z potomstwem z populacji referencyjnej może być typowym sposobem wykorzystania GEBV w hodowli i selekcji krów mlecznych.

Notatki

A. ^ Preprint wymienia AUC dla czystego PRS, podczas gdy opublikowana wersja artykułu wymienia tylko AUC dla PGS w połączeniu z informacjami o wieku, płci i genotypowaniu.

Linki zewnętrzne