Rekonstrukcja przodków
Rekonstrukcja przodków (znana również jako mapowanie postaci lub optymalizacja postaci ) to ekstrapolacja w czasie od zmierzonych cech jednostek (lub populacji) do ich wspólnych przodków . Jest to ważne zastosowanie filogenetyki , rekonstrukcji i badania ewolucyjnych relacji między osobnikami, populacjami lub gatunkami do ich przodków. W kontekście biologii ewolucyjnej rekonstrukcja przodków może być wykorzystana do odzyskania różnego rodzaju stanów charakteru przodków organizmów, które żyły miliony lat temu. Stany te obejmują sekwencję genetyczną ( rekonstrukcja sekwencji przodków ), sekwencję aminokwasową białka , skład genomu (np. kolejność genów), mierzalną cechę organizmu ( fenotyp ) oraz zasięg geograficzny populacji przodków lub gatunku (rekonstrukcja zasięgu przodków). Jest to pożądane, ponieważ pozwala nam zbadać części drzew filogenetycznych odpowiadające odległej przeszłości, wyjaśniając ewolucyjną historię gatunku w drzewie. Ponieważ współczesne sekwencje genetyczne są zasadniczo odmianą starożytnych sekwencji, dostęp do starożytnych sekwencji może zidentyfikować inne odmiany i organizmy, które mogły powstać z tych sekwencji. Oprócz sekwencji genetycznych można próbować śledzić zmianę jednej cechy charakteru na inną, na przykład płetwy zamieniające się w nogi.
Zastosowania niebiologiczne obejmują rekonstrukcję słownictwa lub fonemów języków starożytnych oraz cechy kulturowe starożytnych społeczeństw, takie jak tradycje ustne lub praktyki małżeńskie.
Rekonstrukcja przodków opiera się na wystarczająco realistycznym statystycznym modelu ewolucji, aby dokładnie odtworzyć stan przodków. Modele te wykorzystują informację genetyczną uzyskaną już za pomocą metod takich jak filogenetyka , aby określić drogę, którą obrała ewolucja i kiedy miały miejsce zdarzenia ewolucyjne. Jednak bez względu na to, jak dobrze model przybliża rzeczywistą historię ewolucji, zdolność do dokładnej rekonstrukcji przodka pogarsza się wraz z wydłużaniem się czasu ewolucji między tym przodkiem a jego obserwowanymi potomkami. Ponadto bardziej realistyczne modele ewolucji są nieuchronnie bardziej złożone i trudniejsze do obliczenia, ale także wymagane do uzyskania dokładniejszych rekonstrukcji. Postęp w dziedzinie rekonstrukcji przodków polegał w dużej mierze na wykładniczym wzroście mocy obliczeniowej i towarzyszącym mu opracowaniu wydajnych algorytmów obliczeniowych (np. dynamicznego algorytmu programowania dla łącznej rekonstrukcji sekwencji przodków z maksymalnym prawdopodobieństwem ). Metody rekonstrukcji przodków są często stosowane do danego drzewa filogenetycznego , które zostało już wywnioskowane z tych samych danych. Chociaż jest to wygodne, to podejście ma tę wadę, że jego wyniki zależą od dokładności pojedynczego drzewa filogenetycznego (tj. obciążone drzewo filogenetyczne z powodu ignorowania rekombinacji może zniekształcić zrekonstruowane sekwencje przodków). W przeciwieństwie do tego, niektórzy badacze opowiadają się za bardziej wymagającym obliczeniowo bayesowskim , które uwzględnia niepewność w rekonstrukcji drzew poprzez ocenę rekonstrukcji przodków na wielu drzewach.
Historia
Koncepcję rekonstrukcji przodków często przypisuje się Emile'owi Zuckerkandlowi i Linusowi Paulingowi . Zmotywowani rozwojem technik określania pierwszorzędowej (aminokwasowej) sekwencji białek przez Fredericka Sangera w 1955 roku, Zuckerkandl i Pauling postulowali, że takie sekwencje można wykorzystać do wnioskowania nie tylko o filogenezie związanej z obserwowanymi sekwencjami białek, ale także o białku przodków sekwencji w najwcześniejszym punkcie (korzeniu) tego drzewa. Jednak idea rekonstrukcji przodków na podstawie mierzalnych cech biologicznych rozwijała się już w dziedzinie kladystyki , jednego z prekursorów współczesnej filogenetyki. Metody kladystyczne, które pojawiły się już w 1901 r., wnioskują o pokrewieństwie ewolucyjnym gatunków na podstawie rozmieszczenia wspólnych cech, z których niektóre wywnioskowano, że pochodzą od wspólnych przodków. Ponadto Theodosius Dobzhansky i Alfred Sturtevant sformułowali zasady rekonstrukcji przodków w kontekście filogenetycznym w 1938 r., Wnioskując o ewolucyjnej historii inwersji chromosomów u Drosophila pseudoobscura .
Zatem rekonstrukcja przodków ma swoje korzenie w kilku dyscyplinach. Obecnie metody obliczeniowe do rekonstrukcji przodków są nadal rozszerzane i stosowane w różnych ustawieniach, tak że stany przodków są wnioskowane nie tylko na podstawie cech biologicznych i sekwencji molekularnych, ale także struktury lub właściwości katalitycznych starożytnych i współczesnych białek , położenie geograficzne populacji i gatunków ( filogeografia ) oraz struktura wyższego rzędu genomów.
Metody i algorytmy
Każda próba rekonstrukcji przodków zaczyna się od filogenezy . Ogólnie rzecz biorąc, filogeneza jest opartą na drzewie hipotezą dotyczącą kolejności, w jakiej populacje (określane jako taksony ) są spokrewnione przez pochodzenie od wspólnych przodków. Obserwowane taksony są reprezentowane przez wierzchołki lub końcowe węzły drzewa, które są stopniowo połączone gałęziami ze swoimi wspólnymi przodkami, które są reprezentowane przez punkty rozgałęzienia drzewa, które są zwykle określane jako węzły przodków lub wewnętrzne . Ostatecznie wszystkie linie zbiegają się do ostatniego wspólnego przodka całej próby taksonów. W kontekście rekonstrukcji przodków filogeneza jest często traktowana tak, jakby była znaną wielkością (ważnym wyjątkiem są podejścia bayesowskie). Ponieważ może istnieć ogromna liczba filogenez, które są prawie równie skuteczne w wyjaśnianiu danych, zredukowanie podzbioru filogenez obsługiwanych przez dane do jednego przedstawiciela lub oszacowania punktowego może być wygodnym, a czasem koniecznym założeniem upraszczającym.
Rekonstrukcję przodków można traktować jako bezpośredni rezultat zastosowania hipotetycznego modelu ewolucji do danej filogenezy. Gdy model zawiera jeden lub więcej wolnych parametrów, ogólnym celem jest oszacowanie tych parametrów na podstawie zmierzonych cech obserwowanych taksonów (sekwencji), które pochodzą od wspólnych przodków. Oszczędność jest ważnym wyjątkiem od tego paradygmatu: chociaż wykazano, że istnieją okoliczności, w których jest to estymator największego prawdopodobieństwa, w swej istocie opiera się po prostu na heurystyce, że zmiany stanu postaci są rzadkie, bez próby ilościowego określenia ta rzadkość.
Istnieją trzy różne klasy metod rekonstrukcji przodków. W porządku chronologicznym odkrycia są to maksymalne oszczędności , maksymalne prawdopodobieństwo i wnioskowanie bayesowskie . Maksymalna oszczędność uważa wszystkie wydarzenia ewolucyjne za równie prawdopodobne; maksymalne prawdopodobieństwo uwzględnia różne prawdopodobieństwo pewnych klas zdarzeń; a wnioskowanie Bayeisan wiąże warunkowe prawdopodobieństwo zdarzenia z prawdopodobieństwem drzewa, a także z wielkością niepewności związanej z tym drzewem. Maksymalna oszczędność i maksymalne prawdopodobieństwo dają jeden najbardziej prawdopodobny wynik, podczas gdy wnioskowanie bayesowskie uwzględnia niepewność danych i daje próbkę możliwych drzew.
Maksymalna oszczędność
Oszczędność, zwana potocznie „ brzytwą Ockhama ”, odnosi się do zasady wyboru najprostszej z konkurujących ze sobą hipotez. W kontekście rekonstrukcji przodków oszczędność stara się znaleźć rozkład stanów przodków w obrębie danego drzewa, który minimalizuje całkowitą liczbę zmian stanu postaci, które byłyby konieczne do wyjaśnienia stanów obserwowanych na końcach drzewa. Ta metoda maksymalnej oszczędności jest jednym z najwcześniej sformalizowanych algorytmów rekonstrukcji stanów przodków, a także jednym z najprostszych.
Maksymalną oszczędność można zaimplementować za pomocą jednego z kilku algorytmów. Jednym z najwcześniejszych przykładów jest metoda Fitcha , która przypisuje stany znaków przodków przez oszczędność poprzez dwa przejścia przez zakorzenione drzewo binarne . Pierwszym etapem jest przejście po zamówieniu , które przebiega od wierzchołków w kierunku korzenia drzewa, odwiedzając węzły potomne (potomne) przed ich rodzicami. Wstępnie ustalamy zbiór możliwych stanów charakteru S i dla i -tego przodka na podstawie zaobserwowanych stanów charakteru jego potomków. Każde zadanie jest ustalonym przecięciem stanów postaci potomków przodka; jeśli przecięcie jest zbiorem pustym, to jest sumą zbioru . W tym drugim przypadku zakłada się, że nastąpiła zmiana stanu postaci między przodkiem a jednym z jego dwóch bezpośrednich potomków. Każde takie zdarzenie liczy się do funkcji kosztu algorytmu, która może być wykorzystana do rozróżnienia alternatywnych drzew na podstawie maksymalnej oszczędności. Następnie preorderowa wędrówka po drzewie, poczynając od korzenia w kierunku wierzchołków. Stany znaków są następnie przypisywane każdemu potomkowi na podstawie tego, które stany postaci dzielą ze swoim rodzicem. Ponieważ korzeń nie ma węzła nadrzędnego, może być wymagane arbitralne wybranie stanu znaku, szczególnie gdy w korzeniu zrekonstruowano więcej niż jeden możliwy stan.
Rozważmy na przykład filogenezę odzyskaną dla rodzaju roślin zawierającego 6 gatunków A - F, gdzie każda roślina jest zapylana przez „pszczołę”, „kolibra” lub „wiatr”. Jednym z oczywistych pytań jest to, jakie były zapylacze w głębszych węzłach w filogenezie tego rodzaju roślin. Przy maksymalnej oszczędności rekonstrukcja stanu przodków dla tego kladu ujawnia, że „koliber” jest najbardziej oszczędnym stanem przodków dla niższego kladu (rośliny D, E, F), że stany przodków dla węzłów w górnym kladzie (rośliny A, B, C) są niejednoznaczne i że zarówno zapylacze „kolibry”, jak i „pszczoły” są równie prawdopodobne dla stanu zapylania u podstaw filogenezy. Załóżmy, że mamy mocne dowody z zapisów kopalnych, że stan korzenia to „koliber”. Rozdzielczość korzenia na „kolibra” dałaby wzór rekonstrukcji stanu przodków przedstawiony przez symbole w węzłach ze stanem wymagającym najmniejszej liczby zmian zakreślonym.
Metody oszczędne są intuicyjnie atrakcyjne i bardzo wydajne, tak że w niektórych przypadkach nadal są używane do zasiewania algorytmów optymalizacji maksymalnego prawdopodobieństwa początkową filogenezą. Jednak leżące u podstaw założenie, że ewolucja osiągnęła określony wynik tak szybko, jak to możliwe, jest niedokładne. Dobór naturalny i ewolucja nie działają w kierunku celu, po prostu wybierają za lub przeciw losowo występującym zmianom genetycznym. Metody oszczędne narzucają sześć ogólnych założeń: że drzewo filogenetyczne, którego używasz, jest poprawne, że masz wszystkie istotne dane, w których nie popełniono błędów w kodowaniu, że wszystkie gałęzie drzewa filogenetycznego mają równe szanse na zmianę, że tempo ewolucji jest powolne, a szansa na utratę lub uzyskanie cechy jest taka sama. W rzeczywistości założenia są często łamane, co prowadzi do kilku problemów:
- Zmienność tempa ewolucji. Metoda Fitcha zakłada, że zmiany między wszystkimi stanami postaci są równie prawdopodobne; zatem każda zmiana wiąże się z takim samym kosztem dla danego drzewa. Założenie to jest często nierealne i może ograniczać dokładność takich metod. Na przykład przejścia występują częściej niż transwersje w ewolucji kwasów nukleinowych. Założenie to można złagodzić, przypisując koszty różnicowe do określonych zmian stanu postaci, co skutkuje ważonym algorytmem oszczędności.
- Szybka ewolucja. Rezultatem heurystyki „minimalnej ewolucji” leżącej u podstaw takich metod jest założenie, że zmiany są rzadkie , a zatem są nieodpowiednie w przypadkach, gdy zmiana jest normą, a nie wyjątkiem.
- Zmienność w czasie między rodami. Metody oszczędzania domyślnie zakładają, że na każdej gałęzi drzewa upłynął taki sam czas ewolucyjny. W związku z tym nie uwzględniają różnic w długości gałęzi w drzewie, które są często używane do ilościowego określania upływu czasu ewolucyjnego lub chronologicznego. To ograniczenie sprawia, że technika może wywnioskować, że na przykład jedna zmiana nastąpiła na bardzo krótkiej gałęzi, a nie wiele zmian na bardzo długiej gałęzi. Ponadto możliwe jest, że niektóre gałęzie drzewa mogą doświadczać wyższego tempa selekcji i zmian niż inne, być może z powodu zmieniających się czynników środowiskowych. Niektóre okresy czasu mogą reprezentować szybszą ewolucję niż inne, kiedy to się dzieje, oszczędność staje się niedokładna. To niedociągnięcie jest rozwiązywane za pomocą metod opartych na modelach (zarówno metod największej wiarygodności, jak i metod bayesowskich), które wnioskują o stochastycznym procesie ewolucji, który rozwija się wzdłuż każdej gałęzi drzewa.
- Uzasadnienie statystyczne. Bez modelu statystycznego leżącego u podstaw metody jej oszacowania nie mają dobrze zdefiniowanych niepewności.
- Zbieżna ewolucja. Rozważając pojedynczy stan postaci, oszczędność automatycznie zakłada, że dwa organizmy, które mają tę samą cechę, będą bliżej spokrewnione niż te, które jej nie mają. Na przykład fakt, że psy i małpy człekokształtne mają futro, nie oznacza, że są one bliżej spokrewnione z ludźmi niż małpy człekokształtne.
Maksymalne prawdopodobieństwo
największej wiarygodności (ML) rekonstrukcji stanu przodków traktują stany znaków w wewnętrznych węzłach drzewa jako parametry i próbują znaleźć wartości parametrów, które maksymalizują prawdopodobieństwo danych (obserwowanych stanów znaków) przy hipotezie (model ewolucja i filogeneza odnosząca się do obserwowanych sekwencji lub taksonów). Innymi słowy, metoda ta zakłada, że stany przodków to te, które są statystycznie najbardziej prawdopodobne, biorąc pod uwagę obserwowane fenotypy. Niektóre z najwcześniejszych podejść ML do rekonstrukcji przodków zostały opracowane w kontekście ewolucji sekwencji genetycznych ; podobne modele opracowano również dla analogicznego przypadku dyskretnej ewolucji postaci.
Zastosowanie modelu ewolucji wyjaśnia fakt, że nie wszystkie zdarzenia mają jednakowe prawdopodobieństwo. Na przykład przejście , które jest rodzajem mutacji punktowej z jednej puryny na drugą lub z jednej pirymidyny na drugą, jest znacznie bardziej prawdopodobne niż transwersja , która jest szansą na zamianę puryny na pirymidynę lub vice versa odwrotnie. Tych różnic nie da się uchwycić przez maksymalne oszczędności. Jednak to, że niektóre zdarzenia są bardziej prawdopodobne niż inne, nie oznacza, że zawsze się zdarzają. Wiemy, że w całej historii ewolucji były okresy, w których istniała duża przepaść między tym, co najprawdopodobniej się wydarzy, a tym, co faktycznie się wydarzyło. W takim przypadku maksymalna oszczędność może być w rzeczywistości dokładniejsza, ponieważ jest bardziej skłonna do dużych, nieprawdopodobnych skoków niż maksymalne prawdopodobieństwo. Wykazano, że maksymalne prawdopodobieństwo jest dość wiarygodne w odtwarzaniu stanów postaci, ale nie sprawdza się tak dobrze, jeśli chodzi o dokładne oszacowanie stabilności białek. Maksymalne prawdopodobieństwo zawsze przecenia stabilność białek, co ma sens, ponieważ zakłada, że białka, które zostały wytworzone i użyte, były najbardziej stabilne i optymalne. Zalety maksymalnego prawdopodobieństwa były przedmiotem debaty, a niektórzy doszli do wniosku, że test maksymalnego prawdopodobieństwa stanowi dobry środek między dokładnością a szybkością. Jednak inne badania narzekały, że maksymalne prawdopodobieństwo zajmuje zbyt dużo czasu i mocy obliczeniowej, aby było przydatne w niektórych scenariuszach.
Podejścia te wykorzystują te same ramy probabilistyczne, które są używane do wnioskowania o drzewie filogenetycznym. W skrócie, ewolucja sekwencji genetycznej jest modelowana przez odwracalny w czasie ciągły proces Markowa . W najprostszym z nich wszystkie znaki przechodzą niezależne przejścia stanów (takie jak podstawienia nukleotydów) ze stałą szybkością w czasie. Ten podstawowy model jest często rozszerzany, aby umożliwić różne stawki na każdej gałęzi drzewa. W rzeczywistości tempo mutacji może również zmieniać się w czasie (na przykład z powodu zmian środowiskowych); można to modelować, umożliwiając ewolucję parametrów szybkości wzdłuż drzewa kosztem zwiększonej liczby parametrów. Model definiuje prawdopodobieństwa przejścia ze stanów i do j wzdłuż gałęzi o długości t (w jednostkach czasu ewolucyjnego). Prawdopodobieństwo filogenezy jest obliczane na podstawie zagnieżdżonej sumy prawdopodobieństw przejścia, która odpowiada hierarchicznej strukturze proponowanego drzewa. W każdym węźle prawdopodobieństwo jego potomków jest sumowane po wszystkich możliwych stanach przodków w tym węźle:
gdzie obliczamy prawdopodobieństwo poddrzewa zakorzenionego węźle x z bezpośrednimi potomkami y i z , oznacza stan znaku i -tego węzła, długość gałęzi (czas ewolucji) między węzłami i j , a to zbiór wszystkich możliwych stanów znaków (na przykład nukleotydy A, C, G i T). Zatem celem rekonstrukcji jest znalezienie przypisania do wszystkich , które maksymalizuje prawdopodobieństwo obserwowanych danych dla danego drzewa
Prawdopodobieństwo krańcowe i łączne
Zamiast obliczać ogólne prawdopodobieństwo dla alternatywnych drzew, problemem rekonstrukcji przodków jest znalezienie kombinacji stanów znaków w każdym węźle przodków o najwyższym krańcowym maksymalnym prawdopodobieństwie. Ogólnie rzecz biorąc, istnieją dwa podejścia do tego problemu. Po pierwsze, każdemu przodkowi można przypisać najbardziej prawdopodobny stan charakteru, niezależnie od rekonstrukcji wszystkich innych stanów przodków. Podejście to określane jest mianem rekonstrukcji brzeżnej . Jest to podobne do sumowania wszystkich kombinacji stanów przodków we wszystkich innych węzłach drzewa (w tym w węźle głównym), innych niż te, dla których dostępne są dane. Rekonstrukcja marginalna polega na znalezieniu stanu w bieżącym węźle, który maksymalizuje prawdopodobieństwo integracji wszystkich innych stanów we wszystkich węzłach, proporcjonalnie do ich prawdopodobieństwa. Po drugie, zamiast tego można próbować znaleźć wspólną kombinację stanów znaków przodków w całym drzewie, co łącznie maksymalizuje prawdopodobieństwo całego zbioru danych. Dlatego podejście to określane jest mianem odbudowy stawów. Nic dziwnego, że rekonstrukcja stawu jest bardziej złożona obliczeniowo niż rekonstrukcja brzeżna. Niemniej jednak opracowano wydajne algorytmy rekonstrukcji stawów o złożoności czasowej, która jest generalnie liniowa w stosunku do liczby obserwowanych taksonów lub sekwencji.
Metody rekonstrukcji przodków oparte na ML zwykle zapewniają większą dokładność niż metody MP w obecności zmienności tempa ewolucji między postaciami (lub między miejscami w genomie). Jednak metody te nie są jeszcze w stanie uwzględnić zmian tempa ewolucji w czasie, inaczej znanej jako heterotachia . Jeśli tempo ewolucji dla określonej postaci przyspiesza na gałęzi filogenezy, wówczas wielkość ewolucji, która nastąpiła na tej gałęzi, będzie niedoszacowana dla danej długości gałęzi i przy założeniu stałego tempa ewolucji dla tej postaci. Poza tym trudno jest odróżnić heterotachię od zmienności między postaciami w tempie ewolucji.
Ponieważ ML (w przeciwieństwie do maksymalnej oszczędności) wymaga od badacza określenia modelu ewolucji, na jego dokładność może mieć wpływ użycie rażąco niepoprawnego modelu (błędna specyfikacja modelu). Co więcej, ML może zapewnić tylko pojedynczą rekonstrukcję stanów znaków (co jest często określane jako „oszacowanie punktowe”) — gdy powierzchnia prawdopodobieństwa jest wysoce niewypukła i obejmuje wiele pików (optymów lokalnych), wówczas oszacowanie pojedynczego punktu nie może zapewnić odpowiednią reprezentację, a podejście bayesowskie może być bardziej odpowiednie.
Wnioskowanie bayesowskie
Wnioskowanie bayesowskie wykorzystuje prawdopodobieństwo obserwowanych danych do aktualizacji przekonania badacza lub rozkładu wcześniejszego w celu uzyskania rozkładu późniejszego . W kontekście rekonstrukcji przodków celem jest wywnioskowanie późniejszych prawdopodobieństw stanów charakteru przodków w każdym wewnętrznym węźle danego drzewa. Co więcej, można zintegrować te prawdopodobieństwa po późniejszych rozkładach po parametrach modelu ewolucyjnego i przestrzeni wszystkich możliwych drzew. Można to wyrazić jako zastosowanie twierdzenia Bayesa :
gdzie S reprezentuje stany przodków, odpowiada obserwowanym danym, a reprezentuje zarówno model ewolucyjny jak i drzewo filogenetyczne. jest prawdopodobieństwem obserwowanych danych, które można obliczyć za pomocą algorytmu przycinania Felsensteina, jak podano powyżej. jest prawdopodobieństwem uprzednim stanów przodków dla danego modelu i drzewa. Wreszcie, danych dla danego modelu i drzewa, zintegrowane
Wnioskowanie bayesowskie to metoda, o której wielu twierdziło, że jest najdokładniejsza. Ogólnie rzecz biorąc, bayesowskie metody statystyczne umożliwiają badaczom łączenie wcześniej istniejących informacji z nową hipotezą. W przypadku ewolucji łączy prawdopodobieństwo obserwowanych danych z prawdopodobieństwem, że zdarzenia miały miejsce w kolejności, w jakiej się wydarzyły, jednocześnie uznając możliwość błędu i niepewności. Ogólnie rzecz biorąc, jest to najdokładniejsza metoda rekonstrukcji sekwencji genetycznych przodków, a także stabilności białek. W przeciwieństwie do pozostałych dwóch metod, wnioskowanie bayesowskie daje rozkład możliwych drzew, co pozwala na dokładniejsze i łatwiejsze do interpretacji oszacowanie wariancji możliwych wyników.
Podaliśmy powyżej dwa sformułowania, aby podkreślić dwa różne zastosowania twierdzenia Bayesa, które omówimy w następnej sekcji.
Empiryczny i hierarchiczny Bayes
Jedna z pierwszych implementacji podejścia bayesowskiego do rekonstrukcji sekwencji przodków została opracowana przez Yanga i współpracowników, gdzie oszacowania maksymalnego prawdopodobieństwa odpowiednio modelu ewolucyjnego i drzewa zostały wykorzystane do zdefiniowania wcześniejszych rozkładów. Zatem ich podejście jest przykładem empirycznej metody Bayesa do obliczania prawdopodobieństw a posteriori stanów charakteru przodków; ta metoda została po raz pierwszy zaimplementowana w pakiecie oprogramowania PAML. Jeśli chodzi o powyższe sformułowanie reguły Bayesa, empiryczna metoda Bayesa ustala empiryczne oszacowania modelu i drzewa uzyskane z danych, skutecznie odrzucając prawdopodobieństwo i wcześniejsze warunki formuły. Co więcej, Yang i współpracownicy wykorzystali empiryczny rozkład wzorców miejsc (tj. przypisania nukleotydów do wierzchołków drzewa) w dopasowaniu obserwowanych sekwencji nukleotydów w mianowniku zamiast wyczerpujących obliczeń. P ( re ) {\ nad wszystkimi możliwymi wartościami S podanymi . Pod względem obliczeniowym empiryczna metoda Bayesa jest podobna do rekonstrukcji stanów przodków metodą maksymalnego prawdopodobieństwa, z tym wyjątkiem, że zamiast szukać przypisania stanów ML na podstawie ich odpowiednich rozkładów prawdopodobieństwa w każdym węźle wewnętrznym, same rozkłady prawdopodobieństwa są zgłaszane bezpośrednio.
Empiryczne metody Bayesa do rekonstrukcji przodków wymagają od badacza założenia, że parametry modelu ewolucyjnego i drzewo są znane bezbłędnie. Kiedy rozmiar lub złożoność danych sprawia, że założenie to jest nierealistyczne, rozsądniejsze może być przyjęcie w pełni hierarchicznego podejścia bayesowskiego i wywnioskowanie wspólnego rozkładu a posteriori na podstawie stanów, modelu i drzewa przodków. Huelsenbeck i Bollback jako pierwsi zaproponowali hierarchiczną metodę Bayesa do rekonstrukcji przodków, stosując Monte Carlo łańcucha Markowa (MCMC) do próbkowania sekwencji przodków z tego wspólnego rozkładu tylnego. Podobne podejście zastosowano również do rekonstrukcji ewolucji symbiozy z algami u gatunków grzybów ( lichenizacja ). Na przykład algorytm Metropolisa-Hastingsa dla MCMC bada wspólny rozkład a posteriori, akceptując lub odrzucając przypisania parametrów na podstawie stosunku prawdopodobieństw a posteriori.
Mówiąc prościej, empiryczne podejście Bayesa oblicza prawdopodobieństwa różnych stanów przodków dla określonego drzewa i modelu ewolucji. Wyrażając rekonstrukcję stanów przodków jako zbiór prawdopodobieństw, można bezpośrednio określić ilościowo niepewność przypisania dowolnego określonego stanu przodkowi. Z drugiej strony hierarchiczne podejście Bayesa uśrednia te prawdopodobieństwa dla wszystkich możliwych drzew i modeli ewolucji, proporcjonalnie do prawdopodobieństwa tych drzew i modeli, biorąc pod uwagę zaobserwowane dane.
To, czy hierarchiczna metoda Bayesa daje w praktyce znaczną przewagę, pozostaje jednak kontrowersyjne. Co więcej, to w pełni bayesowskie podejście ogranicza się do analizy stosunkowo niewielkiej liczby sekwencji lub taksonów, ponieważ przestrzeń wszystkich możliwych drzew szybko staje się zbyt rozległa, co sprawia, że zbieżność próbek łańcuchowych w rozsądnym czasie jest obliczeniowo niewykonalna.
Kalibrowanie
Rekonstrukcja przodków może być oparta na obserwowanych stanach w historycznych próbkach o znanym wieku, takich jak skamieliny lub okazy archiwalne. Ponieważ dokładność rekonstrukcji przodków na ogół maleje wraz z upływem czasu, wykorzystanie takich okazów dostarcza danych, które są bliższe rekonstruowanym przodkom i najprawdopodobniej poprawią analizę, zwłaszcza gdy tempo zmian charakteru zmienia się w czasie. Ta koncepcja została potwierdzona przez eksperymentalne badanie ewolucyjne, w którym replikowane populacje bakteriofaga T7 były propagowane w celu wygenerowania sztucznej filogenezy. Przeglądając ponownie te dane eksperymentalne, Oakley i Cunningham stwierdzili, że metody maksymalnej oszczędności nie były w stanie dokładnie zrekonstruować znanego stanu przodków o charakterze ciągłym ( rozmiar płytki ); wyniki te zweryfikowano za pomocą symulacji komputerowej. To niepowodzenie rekonstrukcji przodków przypisywano kierunkowemu odchyleniu w ewolucji wielkości płytki (od dużych do małych średnic płytki), co wymagało włączenia „skamieniałych” próbek w celu rozwiązania problemu.
Badania zarówno ssaków mięsożernych, jak i ryb wykazały, że bez uwzględnienia danych kopalnych zrekonstruowane szacunki rozmiarów ciał przodków są nierealistycznie duże. Co więcej, Graham Slater i współpracownicy wykazali, korzystając z drapieżnych drapieżników , że włączenie danych kopalnych do wcześniejszych dystrybucji poprawiło zarówno wnioskowanie bayesowskie o stanach przodków, jak i wybór modelu ewolucyjnego, w porównaniu z analizami wykorzystującymi tylko dane współczesne.
modele
Opracowano wiele modeli w celu oszacowania stanów przodków dyskretnych i ciągłych postaci z zachowanych potomków. Takie modele zakładają, że ewolucję cechy w czasie można modelować jako proces stochastyczny. W przypadku cech o wartościach dyskretnych (takich jak „typ zapylacza”) proces ten jest zwykle traktowany jako łańcuch Markowa ; w przypadku cech o wartościach ciągłych (takich jak „ rozmiar mózgu ”) proces ten jest często traktowany jako ruch Browna lub proces Ornsteina-Uhlenbecka . Wykorzystując ten model jako podstawę wnioskowania statystycznego, można teraz użyć największej wiarygodności lub wnioskowania bayesowskiego do oszacowania stanów przodków.
Modele o stanach dyskretnych
że dana cecha może należeć do jednego ze , oznaczonych jako . Typowym sposobem modelowania ewolucji tej cechy jest łańcuch Markowa w czasie ciągłym, który można krótko opisać w następujący sposób. Każdy stan ma powiązane z nim stawki przejścia do wszystkich innych stanów. Cecha jest modelowana jako przechodzenie między ; kiedy osiąga dany stan, uruchamia wykładniczy „zegar” dla każdego z pozostałych stanów, do których może przejść. Następnie „ściga się” ze sobą zegary i robi krok w kierunku stanu, którego zegar dzwoni pierwszy. modelu , które można oszacować np. metodą największej wiarygodności, gdzie maksymalizuje się na zbiorze wszystkich możliwych konfiguracji stanów węzłów przodków.
Aby odzyskać stan danego węzła przodków w filogenezie (nazwij ten węzeł maksymalnego prawdopodobieństwa, procedura jest następująca: znajdź oszacowanie maksymalnego prawdopodobieństwa z ; następnie obliczyć prawdopodobieństwo każdego możliwego stanu dla warunkowania na ; na koniec wybierz stan przodków, który maksymalizuje to. Można również użyć tego modelu podstawienia jako podstawy procedury wnioskowania bayesowskiego, która uwzględniałaby późniejszą wiarę w stan węzła przodków, biorąc pod uwagę jakiś wcześniej wybrany przez użytkownika.
nawet parametry, problemem Niektóre typowe wybory, które zmniejszają przestrzeń parametrów to:
- parametrów stanu 1 : ten model jest odpowiednikiem modelu Jukesa-Cantora z odwróceniem w czasie W tym modelu wszystkie przejścia mają tę samą szybkość stanu początkowego i końcowego. Niektóre przejścia mogą być niedozwolone przez deklarację, że ich współczynniki wynoszą po prostu 0; może tak być na przykład, jeśli pewnych stanów nie można osiągnąć z innych stanów w jednym przejściu.
- Asymetryczny model parametrów Markowa 2 tym modelu przestrzeń stanów jest uporządkowana (tak, że na przykład stan 1 jest mniejszy niż stan 2, który jest mniejszy niż stan 3), a przejścia mogą tylko k {\ displaystyle k} występują między sąsiednimi stanami. Model zawiera dwa parametry i : jeden dla szybkości wzrostu stanu (np. 0 do 1, do 2 itd.), a jeden dla tempa spadku stanu (np. z 2 do 1, z 1 do 0 itd.).
Przykład: model specjacji i wymierania stanu binarnego
Model specjacji i wymierania stanu binarnego (BiSSE) to model przestrzeni dyskretnej, który nie jest bezpośrednio zgodny z ramami wymienionymi powyżej. Pozwala na oszacowanie przodków binarnych stanów znaków łącznie ze wskaźnikami dywersyfikacji związanymi z różnymi stanami znaków; można go również w prosty sposób rozszerzyć na bardziej ogólny model z wieloma stanami dyskretnymi. W swojej najbardziej podstawowej formie model ten obejmuje sześć parametrów: dwa współczynniki specjacji (po jednym dla linii w stanach 0 i 1); podobnie dwa wskaźniki wymierania; i dwa wskaźniki zmiany charakteru. Model ten pozwala na testowanie hipotez dotyczących tempa specjacji/wymierania/zmiany charakteru, kosztem zwiększenia liczby parametrów.
Modele stanów ciągłych
W przypadku, gdy cecha zamiast tego przyjmuje wartości niedyskretne, należy zamiast tego zwrócić się do modelu, w którym cecha ewoluuje jako proces ciągły. Wnioskowanie o stanach przodków na podstawie maksymalnego prawdopodobieństwa (lub metodami bayesowskimi) przebiegałoby jak powyżej, ale z prawdopodobieństwem przejść stanu między sąsiednimi węzłami określonymi przez inny ciągły rozkład prawdopodobieństwa.
- Ruch Browna : w tym przypadku, jeśli węzły \ } ) a gałąź długości prawdopodobieństwo przejścia ze w stanie stanu t jest podane przez a Gęstość Gaussa ze średnią W jest tylko jeden parametr ( ), } a model zakłada, że cecha ewoluuje swobodnie, bez tendencji do wzrostu lub spadku, oraz że tempo zmian jest stałe we wszystkich gałęziach drzewa filogenetycznego.
- Proces Ornsteina-Uhlenbecka : krótko mówiąc, proces Ornsteina-Uhlenbecka jest ciągłym procesem stochastycznym, który zachowuje się jak ruch Browna, ale jest przyciągany w kierunku pewnej centralnej wartości, gdzie siła przyciągania wzrasta wraz z odległością od tej wartości. Jest to przydatne do modelowania scenariuszy, w których cecha podlega stabilizującej wokół określonej wartości (powiedzmy ). W ramach powyżej przejście w stanie stanu w stanie prawdopodobieństwo określone przez gęstość przejścia U procesu Ornsteina-Uhlenbecka z dwoma parametrami: , który opisuje wariancję napędzającego ruchu Browna i , który opisuje jego przyciągania do . Ponieważ ma tendencję do { , proces jest coraz mniej ograniczony jego przyciąganiem do i staje się ruchem Browna. Z tego powodu modele mogą być zagnieżdżane i można przeprowadzać testy logarytmiczne ilorazu wiarygodności określające, który z dwóch modeli jest odpowiedni.
- Stabilne modele ciągłej ewolucji postaci: chociaż ruchy Browna są atrakcyjne i możliwe do zastosowania jako model ciągłej ewolucji, nie dopuszczają one braku neutralności w swojej podstawowej formie ani nie przewidują żadnych zmian w tempie ewolucji w czasie. Zamiast tego można użyć stabilnego procesu , którego wartości w ustalonych momentach rozkładają się jako stabilne rozkłady , aby modelować ewolucję cech. Procesy stabilne, z grubsza mówiąc, zachowują się jak ruchy Browna, które zawierają również nieciągłe skoki. Pozwala to odpowiednio modelować scenariusze, w których spodziewane są krótkie serie szybkiej ewolucji cech. W tym ustawieniu metody największego prawdopodobieństwa są słabo dostosowane ze względu na nierówną powierzchnię prawdopodobieństwa i ponieważ prawdopodobieństwo może być dowolnie duże, dlatego bardziej odpowiednie są metody bayesowskie.
Aplikacje
Ewolucja postaci
Rekonstrukcja przodków jest szeroko stosowana do wnioskowania o cechach ekologicznych, fenotypowych lub biogeograficznych związanych z węzłami przodków w drzewie filogenetycznym. Wszystkie metody rekonstrukcji cech przodków mają pułapki, ponieważ wykorzystują modele matematyczne do przewidywania zmian cech przy dużej ilości brakujących danych. Te brakujące dane obejmują stany wymarłych gatunków, względne tempo zmian ewolucyjnych, znajomość początkowych stanów charakteru i dokładność drzew filogenetycznych. We wszystkich przypadkach, w których stosuje się rekonstrukcję cech przodków, ustalenia należy uzasadnić badaniem danych biologicznych, które wspierają wnioski oparte na modelu. Griffith OW i in.
Rekonstrukcja przodków pozwala na badanie ścieżek ewolucyjnych, selekcję adaptacyjną , ekspresję genów rozwojowych i funkcjonalną rozbieżność ewolucyjnej przeszłości. Aby zapoznać się z przeglądem biologicznych i obliczeniowych technik rekonstrukcji przodków, patrz Chang i in. . Krytykę metod obliczeniowych rekonstrukcji przodków można znaleźć w Williams PD i in. .
Ewolucja zachowania i historii życia
U jaszczurek rogatych (rodzaj Phrynosoma ) żyworodność (żywe narodziny) ewoluowała wielokrotnie, w oparciu o metody rekonstrukcji przodków.
Rekonstrukcja diety u zięb z Galapagos
Dostępne są zarówno dane filogenetyczne, jak i charakterologiczne dotyczące promieniowania zięb zamieszkujących Wyspy Galapagos . Dane te umożliwiają testowanie hipotez dotyczących czasu i kolejności zmian stanu postaci w czasie poprzez rekonstrukcję stanu przodków. W porze suchej diety 13 gatunków zięb z Galapagos można podzielić na trzy szerokie kategorie diet, po pierwsze te, które spożywają pokarmy przypominające zboża, są uważane za „ ziarnożerne ”, te, które spożywają stawonogi, nazywane są „ owadożercami ”, a te, które jedzą roślinność klasyfikowana jest jako „ roślinożerne ”. Rekonstrukcja stanu przodków żywieniowych przy użyciu maksymalnej oszczędności pozwala odzyskać 2 główne zmiany ze stanu owadożernego: jedną do ziarnożerności i jedną do roślinożerności. Rekonstrukcja stanu przodków o maksymalnym prawdopodobieństwie daje zasadniczo podobne wyniki, z jedną istotną różnicą: wspólny przodek kladów zięby drzewiastej ( Camarhynchus ) i zięby ziemnej ( Geospiza ) jest najprawdopodobniej raczej ziarnożerny niż owadożerny (jak ocenia się na podstawie oszczędności). W tym przypadku ta różnica między stanami przodków zwracanymi przez maksymalne oszczędności i maksymalne prawdopodobieństwo prawdopodobnie wynika z faktu, że szacunki ML uwzględniają długości gałęzi drzewa filogenetycznego.
Morfologiczna i fizjologiczna ewolucja charakteru
Phrynosomatid wykazują niezwykłą różnorodność morfologiczną, w tym względny skład włókien mięśniowych w mięśniach kończyn tylnych . Rekonstrukcja przodków oparta na oszczędności przy zmianie kwadratu (odpowiednik maksymalnego prawdopodobieństwa w ruchu Browna ) wskazuje, że rogate jaszczurki , jedna z trzech głównych podklad linii, przeszły znaczny ewolucyjny wzrost proporcji szybko utleniających się włókien glikolitycznych w ich mięśnie biodrowe.
Masa ciała ssaków
W analizie masy ciała 1679 gatunków ssaków łożyskowych , porównując stabilne modele ciągłej ewolucji charakteru z modelami ruchów Browna , Elliot i Mooers wykazali, że proces ewolucyjny opisujący ewolucję masy ciała ssaków najlepiej charakteryzuje stabilny model ciągłej ewolucji charakteru, który uwzględnia rzadkie zmiany o dużej wielkości. W modelu stabilnym przodkowie ssaków zachowali niską masę ciała dzięki wczesnemu zróżnicowaniu, z dużym wzrostem masy ciała zbieżnym z pochodzeniem kilku rzędów gatunków o dużej masie ciała (np. kopytnych). Dla kontrastu, symulacja w ramach modelu ruchów Browna pozwoliła na odzyskanie mniej realistycznej, o rząd wielkości większej masy ciała wśród przodków ssaków, co wymagało znacznych redukcji wielkości ciała przed ewolucją rzędów wykazujących małe rozmiary ciała (np. Rodentia ) . W ten sposób stabilne modele odzyskują bardziej realistyczny obraz ewolucji masy ciała ssaków, umożliwiając wystąpienie dużych przemian na małym podzbiorze gałęzi.
Filogenetyczne metody porównawcze (wnioski wyciągnięte na podstawie porównania pokrewnych taksonów) są często wykorzystywane do identyfikacji cech biologicznych, które nie ewoluują niezależnie, co może ujawnić leżącą u ich podstaw zależność. Na przykład ewolucja kształtu dzioba zięby może być związana z jej zachowaniem podczas żerowania. Jednak nie jest wskazane poszukiwanie tych powiązań przez bezpośrednie porównanie pomiarów lub sekwencji genetycznych, ponieważ obserwacje te nie są niezależne ze względu na ich pochodzenie od wspólnych przodków. W przypadku postaci dyskretnych problem ten został najpierw rozwiązany w ramach maksymalnej oszczędności, oceniając, czy dwie postacie mają tendencję do zmiany na tych samych gałęziach drzewa. Felsenstein zidentyfikował ten problem dla ciągłej ewolucji postaci i zaproponował rozwiązanie podobne do rekonstrukcji przodków, w którym struktura filogenetyczna danych została dostosowana statystycznie, kierując analizę poprzez obliczenie „niezależnych kontrastów” między węzłami drzewa powiązanymi przez nienakładające się gałęzie .
Ewolucja molekularna
Na poziomie molekularnym reszty aminokwasowe w różnych miejscach białka mogą ewoluować w sposób niezależny, ponieważ mają bezpośrednią interakcję fizykochemiczną lub pośrednio poprzez ich interakcje ze wspólnym substratem lub poprzez interakcje dalekiego zasięgu w strukturze białka. I odwrotnie, pofałdowaną strukturę białka można potencjalnie wywnioskować z rozkładu interakcji reszt. Shindyalov i współpracownicy opublikowali jedno z najwcześniejszych zastosowań rekonstrukcji przodków do przewidywania trójwymiarowej struktury białka poprzez kontakty reszt. Filogenezy odnoszące się do 67 różnych rodzin białek zostały wygenerowane metodą grupowania opartą na odległości ( metoda grup nieważonych par ze średnią arytmetyczną , UPGMA), a sekwencje przodków zostały zrekonstruowane przez oszczędność. Autorzy zgłosili słabą, ale znaczącą tendencję do wspólnego ewoluowania par reszt do kolokacji w znanej trójwymiarowej strukturze białek.
Rekonstrukcja starożytnych białek i sekwencji DNA dopiero niedawno stała się znaczącym przedsięwzięciem naukowym. Rozwój obszernych baz danych sekwencji genomowych w połączeniu z postępem w biotechnologii i filogenetycznych metodach wnioskowania sprawił, że rekonstrukcja przodków była tania, szybka i naukowo praktyczna. Koncepcja ta została zastosowana do identyfikacji współewoluujących reszt w sekwencjach białkowych przy użyciu bardziej zaawansowanych metod rekonstrukcji filogenez i sekwencji przodków. Na przykład rekonstrukcja przodków została wykorzystana do zidentyfikowania współewoluujących reszt w białkach kodowanych przez genomy wirusa RNA, szczególnie w HIV.
białek i DNA przodków pozwala na odtworzenie ewolucji białek i DNA w laboratorium, dzięki czemu można je bezpośrednio badać. W odniesieniu do białek pozwala to na badanie ewolucji współczesnej struktury i funkcji molekularnej. Ponadto rekonstrukcja białek przodków może prowadzić do odkrycia nowych funkcji biochemicznych, które zostały utracone we współczesnych białkach. Umożliwia również wgląd w biologię i ekologię wymarłych organizmów. Chociaż większość rekonstrukcji przodków dotyczyła białek, stosowano je również do testowania mechanizmów ewolucyjnych na poziomie genomów bakterii i sekwencji genów naczelnych.
Projekt szczepionki
Wirusy RNA, takie jak ludzki wirus upośledzenia odporności (HIV), ewoluują w niezwykle szybkim tempie, o rząd wielkości szybciej niż ssaki czy ptaki. W przypadku tych organizmów rekonstrukcję przodków można zastosować w znacznie krótszej skali czasowej; na przykład w celu zrekonstruowania globalnego lub regionalnego prekursora epidemii , która trwa od dziesięcioleci, a nie od milionów lat. Zespół skupiony wokół Briana Gaschena zaproponował, aby takie zrekonstruowane szczepy były wykorzystywane jako cele do szczepionkami , w przeciwieństwie do sekwencji izolowanych od pacjentów w dzisiejszych czasach. Ponieważ wirus HIV jest niezwykle zróżnicowany, szczepionka zaprojektowana do działania na populację wirusową jednego pacjenta może nie działać u innego pacjenta, ponieważ odległość ewolucyjna między tymi dwoma wirusami może być duża. Jednak ich ostatni wspólny przodek jest bliżej każdego z dwóch wirusów niż siebie nawzajem. Zatem szczepionka zaprojektowana dla wspólnego przodka może mieć większe szanse na skuteczność w przypadku większej liczby krążących szczepów. Inny zespół rozwinął ten pomysł, opracowując metodę rekonstrukcji środka drzewa, aby stworzyć sekwencję, której całkowity dystans ewolucyjny do współczesnych szczepów jest tak mały, jak to tylko możliwe. Ściśle mówiąc, ta metoda nie była przodków , ponieważ sekwencja centrum drzewa (COT) niekoniecznie reprezentuje sekwencję, która kiedykolwiek istniała w ewolucyjnej historii wirusa. Jednak Rolland i współpracownicy odkryli, że w przypadku HIV wirus COT był funkcjonalny po zsyntetyzowaniu. Podobne eksperymenty z syntetycznymi sekwencjami przodków uzyskanymi przez rekonstrukcję o maksymalnym prawdopodobieństwie również wykazały, że ci przodkowie są zarówno funkcjonalni, jak i immunogenni, nadając tym metodom pewną wiarygodność. Co więcej, rekonstrukcja przodków może być potencjalnie wykorzystana do wnioskowania o sekwencji genetycznej przekazanych wariantów HIV, które przyczyniły się do powstania kolejnej infekcji, w celu zidentyfikowania charakterystycznych cech tych wariantów (jako nielosowy wybór przenoszonej populacji wirusy), które mogą być celem projektowania szczepionek.
Rearanżacje genomu
Zamiast wnioskować o sekwencji DNA przodków, można zainteresować się strukturą molekularną na większą skalę i zawartością genomu przodków. Do tego problemu często podchodzi się w ramach kombinatorycznych, modelując genomy jako permutacje genów lub regionów homologicznych. Na tych permutacjach dozwolone są różne operacje, takie jak inwersja (segment permutacji jest odwracany w miejscu), usuwanie (segment jest usuwany), transpozycja (segment jest usuwany z jednej części permutacji i łączony w innym miejscu ) lub zdobywanie zawartości genetycznej poprzez rekombinację , duplikację lub poziomy transfer genów . „Problem przegrupowania genomu”, po raz pierwszy postawiony przez Wattersona i współpracowników, zadaje pytanie: biorąc pod uwagę dwa genomy (permutacje) i zestaw dopuszczalnych operacji, jaka jest najkrótsza sekwencja operacji, które przekształcą jeden genom w drugi? Uogólnieniem tego problemu mającym zastosowanie do rekonstrukcji przodków jest „problem rearanżacji wielu genomów”: biorąc pod uwagę zestaw genomów i zestaw dopuszczalnych operacji, znajdź (i) drzewo binarne z danymi genomami jako liśćmi oraz (ii) przypisanie genomów do wewnętrznych węzłów drzewa w taki sposób, aby zminimalizować całkowitą liczbę operacji w całym drzewie. To podejście jest podobne do oszczędności, z wyjątkiem tego, że drzewo jest wywnioskowane wraz z sekwencjami przodków. Niestety, nawet problem rearanżacji pojedynczego genomu jest NP-trudny , chociaż poświęcono mu wiele uwagi w matematyce i informatyce (przegląd patrz Fertin i współpracownicy).
Rekonstrukcja genomów przodków jest również nazywana rekonstrukcją kariotypu . Malowanie chromosomów jest obecnie główną techniką eksperymentalną. Niedawno naukowcy opracowali metody obliczeniowe do rekonstrukcji kariotypu przodków, korzystając z genomiki porównawczej . Ponadto zastosowano genomikę porównawczą i rekonstrukcję genomu przodków, aby zidentyfikować starożytne poziome transfery genów u ostatniego wspólnego przodka linii (np. Candidatus Accumulibacter phosphatis), aby zidentyfikować ewolucyjne podstawy nabywania cech.
Aplikacje przestrzenne
Migracja
Rekonstrukcja przodków nie ogranicza się do cech biologicznych. Lokalizacja przestrzenna jest również cechą, a metody rekonstrukcji przodków mogą wywnioskować lokalizację przodków rozważanych jednostek. Lemey i współpracownicy wykorzystali takie techniki do geograficznego śledzenia przodków 192 ptasiej grypy A-H5N1 pobranych z dwudziestu miejsc w Europie i Azji oraz dla 101 sekwencji wirusa wścieklizny pobranych z dwunastu krajów afrykańskich.
Traktowanie lokalizacji jako stanów dyskretnych (krajów, miast itp.) pozwala na zastosowanie opisanych powyżej modeli stanów dyskretnych. Jednak w przeciwieństwie do modelu, w którym przestrzeń stanów dla cechy jest niewielka, lokalizacji może być wiele, a przejścia między pewnymi parami stanów mogą występować rzadko lub nigdy; na przykład migracja między odległymi lokalizacjami może nigdy nie nastąpić bezpośrednio, jeśli nie istnieje podróż samolotem między dwoma miejscami, więc takie migracje muszą najpierw przejść przez pośrednie lokalizacje. Oznacza to, że w modelu może być wiele parametrów, które są zerowe lub bliskie zeru. W tym celu Lemey i współpracownicy wykorzystali procedurę bayesowską, aby nie tylko oszacować parametry i stany przodków, ale także wybrać, które parametry migracji nie są zerowe; ich praca sugeruje, że ta procedura rzeczywiście prowadzi do bardziej efektywnego wykorzystania danych. Badają również wykorzystanie wcześniejszych rozkładów, które uwzględniają strukturę geograficzną lub hipotezy dotyczące dynamiki migracji, stwierdzając, że te, które rozważali, miały niewielki wpływ na wyniki.
Korzystając z tej analizy, zespół skupiony wokół Lemey odkrył, że najbardziej prawdopodobnym ośrodkiem rozprzestrzeniania się A-H5N1 jest Guangdong , a Hongkong również otrzymuje wsparcie późniejsze. Co więcej, ich wyniki potwierdzają hipotezę o długotrwałej obecności afrykańskiej wścieklizny w Afryce Zachodniej .
Zakresy gatunków
Wnioskowanie o historycznych wzorcach biogeograficznych często wymaga rekonstrukcji przodków gatunków na drzewach filogenetycznych. Na przykład dobrze rozwiązana filogeneza gatunków roślin z rodzaju Cyrtandra została wykorzystana wraz z informacjami o ich zasięgu geograficznym do porównania czterech metod rekonstrukcji zasięgu przodków. Zespół porównał parsymonię Fitch, (FP; parsimony) mapowanie stochastyczne (SM; maksymalne prawdopodobieństwo), wikariancji rozproszenia (DIVA; parsimony) i kladogenezę rozproszenia-wymierania (DEC; maksymalne prawdopodobieństwo). Wyniki wskazują, że obie metody oszczędzania działały słabo, co prawdopodobnie wynikało z faktu, że metody oszczędzania nie uwzględniają długości gałęzi. Obie metody największej wiarygodności działały lepiej; Jednak analizy DEC, które dodatkowo pozwalają na włączenie wcześniejszych danych geologicznych, dały bardziej realistyczne wnioski na temat ewolucji zasięgu w Cyrtandra w porównaniu z innymi metodami.
Inna metoda największego prawdopodobieństwa odtwarza historię filogeograficzną genu poprzez rekonstrukcję lokalizacji przodków taksonów z próby. Ta metoda zakłada przestrzennie wyraźny model błądzenia losowego w celu zrekonstruowania lokalizacji przodków, biorąc pod uwagę współrzędne geograficzne osobników reprezentowanych przez wierzchołki drzewa filogenetycznego. Po zastosowaniu do drzewa filogenetycznego żab chorusowych Pseudacris feriarum metoda ta odzyskała niedawną ekspansję na północ, większą odległość rozproszenia na pokolenie w niedawno skolonizowanym regionie, niecentralną lokalizację przodków i migrację kierunkową.
Pierwsze rozważania na temat problemu rearanżacji wielu genomów, na długo przed jego sformalizowaniem w kategoriach permutacji, przedstawili Sturtevant i Dobzhansky w 1936 roku. Zbadali oni genomy kilku szczepów muszek owocowych z różnych lokalizacji geograficznych i zaobserwowali, że jedna konfiguracja, którą zwana „standardową”, była najpowszechniejsza we wszystkich badanych obszarach. Co ciekawe, zauważyli również, że ze standardowej sekwencji można było otrzymać cztery różne szczepy przez pojedynczą inwersję, a dwa inne można było powiązać przez drugą inwersję. To pozwoliło im postawić hipotezę filogenezy sekwencji i wywnioskować, że sekwencja standardowa była prawdopodobnie również sekwencją przodków.
Ewolucja językowa
Rekonstrukcji słów i fenomenów starożytnych prajęzyków, takich jak praindoeuropejski, dokonano na podstawie zaobserwowanych odpowiedników we współczesnych językach. Zazwyczaj analizy te przeprowadza się ręcznie, stosując „metodę porównawczą”. w badanych językach współczesnych identyfikuje się słowa z różnych języków o wspólnej etymologii ( cognates ), analogicznie do identyfikacji ortologicznych sekwencji biologicznych. Po drugie, identyfikowane są odpowiedniki między poszczególnymi dźwiękami w pokrewnych, krok podobny do dopasowania sekwencji biologicznej , chociaż wykonywany ręcznie. Wreszcie, hipotezy dotyczące prawdopodobnych dźwięków przodków są stawiane na podstawie kontroli ręcznej i różnych heurystyk (takich jak fakt, że większość języków ma zarówno samogłoski nosowe, jak i nienosowe ).
Oprogramowanie
Dostępnych jest wiele pakietów oprogramowania, które mogą przeprowadzać rekonstrukcję stanu przodków. Ogólnie rzecz biorąc, te pakiety oprogramowania zostały opracowane i utrzymywane dzięki wysiłkom naukowców z pokrewnych dziedzin i są udostępniane na licencji wolnego oprogramowania . Poniższa tabela nie ma na celu wyczerpującego wyszczególnienia wszystkich dostępnych pakietów, ale przedstawia reprezentatywną próbkę szerokiej gamy pakietów, które implementują metody rekonstrukcji przodków o różnych mocach i funkcjach.
Nazwa | Metody | Platforma | Wejścia | ! Typy znaków | Znaki ciągłe (C) lub dyskretne (D) | Licencja oprogramowania |
---|---|---|---|---|---|---|
PAML | Maksymalne prawdopodobieństwo | Unix, Mac, Win | PHYLIP, NEXUS, FASTA | nukleotyd, białko | D | Powszechna Licencja Publiczna GNU , wersja 3 |
BESTIA | bayesowski | Unix, Mac, Win | NEXUS, BEAST XML | Nukleotyd, Białko, Geograficzny | PŁYTA CD | Mniejsza Powszechna Licencja Publiczna GNU |
Fitool | Maksymalne prawdopodobieństwo | Unix, Mac, Win | Newick, nexus | Cechy jakościowe i ilościowe | PŁYTA CD | Powszechna Licencja Publiczna GNU |
MAŁPA | Maksymalne prawdopodobieństwo | Unix, Mac, Win | NEXUS, FAST, CLUSTA | nukleotyd, białko | PŁYTA CD | Powszechna Licencja Publiczna GNU |
Zróżnicowane drzewo | Maksymalne prawdopodobieństwo | Unix, Mac, Win | OGNIWO | Cechy jakościowe i ilościowe, Geograficzny | PŁYTA CD | Powszechna Licencja Publiczna GNU, wersja 2 |
HyPhy | Maksymalne prawdopodobieństwo | Unix, Mac, Win | MEGA, NEXUS, FASTA, PHYLIP | Nukleotyd, Białko (konfigurowalne) | D | Licencja GNU Wolnej Dokumentacji 1.3 |
Cechy Bayesa | bayesowski | Unix, Mac, Win | Tabela TSV lub rozdzielana spacjami. Wiersze to gatunki, kolumny to cechy. | Cechy jakościowe i ilościowe | PŁYTA CD | Licencja Creative Commons Uznanie autorstwa |
Lagrange'a | Maksymalne prawdopodobieństwo | Linux, Mac, Win | TSV/CSV regionów gatunków. Wiersze to gatunki, a kolumny to regiony geograficzne | Geograficzny | - | Powszechna Licencja Publiczna GNU, wersja 2 |
Mesquite | Oszczędność, maksymalne prawdopodobieństwo | Unix, Mac, Win | Fasta, NBRF, Genbank, PHYLIP, CLUSTAL, TSV | Nukleotyd, Białko, Geograficzny | PŁYTA CD | Licencja Creative Commons Uznanie autorstwa 3.0 |
filomapper | Maksymalne prawdopodobieństwo, bayesowskie (od wersji 2) | Unix, Mac, Win | OGNIWO | Nisza geograficzna, ekologiczna | PŁYTA CD | - |
Przodkowie | Maksymalne prawdopodobieństwo | Sieć | Fasta | Nukleotydy (indele) | D | - |
Pyreks | Maksymalna oszczędność | Linuks | Fasta | Ekspresja genu | PŁYTA CD | Prawnie zastrzeżony |
ProtASR | Maksymalne prawdopodobieństwo | Linuks | Filip | Białko (z uwzględnieniem ograniczeń strukturalnych) | D | Powszechna Licencja Publiczna GNU |
SIMMAP | Mapowanie stochastyczne | Prochowiec | Format podobny do XML | Nukleotydy, cechy jakościowe | D | Prawnie zastrzeżony |
Panie Bayes | bayesowski | Unix, Mac, Win | OGNIWO | nukleotyd, białko | D | Powszechna Licencja Publiczna GNU |
PARANA | Maksymalna oszczędność | Unix, Mac, Win | Newick | Sieci biologiczne | D | Licencja Apache |
PHAST (WCZEŚNIEJSZY) | Maksymalne prawdopodobieństwo | Unix, Mac, Win | Wiele wyrównań | Nukleotyd | D | Licencja BSD |
ZGRZYT | Maksymalne prawdopodobieństwo, bayesowskie | Unix, Mac, Win | Newick | Geograficzny | D | - |
VIP | Maksymalna oszczędność | Linux, Win | Newick | Geograficzny | D (siatka) | GPL Creative Commons |
FastML | Maksymalne prawdopodobieństwo | Sieć, Unix | Fasta | nukleotyd, białko | D | Prawo autorskie |
MLGO | Maksymalne prawdopodobieństwo | Sieć | Zwyczaj | Permutacja kolejności genów | D | GNU ANTYLOPA |
BORSUK | bayesowski | Unix, Mac, Win | Zwyczaj | Permutacja kolejności genów | D | GNU GPL wersja 2 |
LICZYĆ | Maksymalna oszczędność, maksymalne prawdopodobieństwo | Unix, Mac, Win | Rozdzielany znakami tabulacji plik tekstowy wierszy dla taksonów i danych liczbowych w kolumnach. | Dane liczbowe (np. wielkość rodziny homologów) | D | BSD |
MEGA | Maksymalna oszczędność, maksymalne prawdopodobieństwo. | Mac, wygraj | MEGA | nukleotyd, białko | D | Prawnie zastrzeżony |
ANGIE | Lokalna oszczędność | Uniks | Zwyczaj | Mapy genomu | D | Powszechna Licencja Publiczna GNU, wersja 3 |
ODSZYFROWAĆ | Maksymalne prawdopodobieństwo | Unix, Mac, Win | FASTA, GenBank | Nukleotyd | D | Powszechna Licencja Publiczna GNU, wersja 3 |
EREM | Maksymalne prawdopodobieństwo. | Win, Unix, moduł Matlab | Niestandardowy format tekstu dla parametrów modelu, drzewa, zaobserwowanych wartości znaków. | Dwójkowy | D | Nie określono, chociaż witryna wskazuje, że oprogramowanie jest ogólnodostępne. |
Opisy pakietów
Ewolucja molekularna
Większość tych pakietów oprogramowania jest przeznaczona do analizy danych sekwencji genetycznych. Na przykład PAML to zbiór programów do analizy filogenetycznej dopasowania sekwencji DNA i białek według maksymalnego prawdopodobieństwa. Rekonstrukcję przodków można przeprowadzić za pomocą codeml . Ponadto LAZARUS jest zbiorem Pythona , które opakowują funkcje rekonstrukcji przodków PAML w celu przetwarzania wsadowego i większej łatwości użytkowania. Pakiety oprogramowania, takie jak MEGA , HyPhy i Mesquite, również wykonują analizę filogenetyczną danych sekwencji, ale są zaprojektowane tak, aby były bardziej modułowe i dostosowywalne. HyPhy wdraża wspólną metodę największej wiarygodności rekonstrukcji sekwencji przodków, którą można łatwo dostosować do rekonstrukcji bardziej ogólnego zakresu dyskretnych stanów znaków przodków, takich jak lokalizacje geograficzne, poprzez określenie niestandardowego modelu w języku wsadowym. Mesquite zapewnia metody rekonstrukcji stanu przodków zarówno dla znaków dyskretnych, jak i ciągłych, przy użyciu metod maksymalnego oszczędności i największego prawdopodobieństwa. Zapewnia również kilka narzędzi do wizualizacji do interpretacji wyników rekonstrukcji przodków. MEGA to również system modułowy, ale kładzie większy nacisk na łatwość obsługi niż dostosowywanie analiz. Począwszy od wersji 5, MEGA pozwala użytkownikowi zrekonstruować stany przodków przy użyciu maksymalnej oszczędności, maksymalnego prawdopodobieństwa i empirycznych metod Bayesa.
Analiza bayesowska sekwencji genetycznych może zapewnić większą odporność na błędną specyfikację modelu. MrBayes umożliwia wnioskowanie o stanach przodków w węzłach przodków przy użyciu pełnego hierarchicznego podejścia bayesowskiego. Program PREQEL dystrybuowany w pakiecie PHAST przeprowadza porównawczą genomikę ewolucyjną z wykorzystaniem rekonstrukcji sekwencji przodków. SIMMAP stochastycznie mapuje mutacje na filogenezach. BayesTraits analizuje dyskretne lub ciągłe znaki w schemacie bayesowskim, aby ocenić modele ewolucji, zrekonstruować stany przodków i wykryć skorelowaną ewolucję między parami cech. ProtASR wykonuje rekonstrukcję sekwencji przodków (ASR) białek uwzględniających ograniczenia strukturalne.
Inne typy postaci
Inne pakiety oprogramowania są bardziej zorientowane na analizę cech jakościowych i ilościowych ( fenotypów ). Na przykład ape w statystycznym środowisku obliczeniowym R zapewnia również metody rekonstrukcji stanu przodków zarówno dla znaków dyskretnych, jak i ciągłych za pomocą funkcji „ as ”, w tym maksymalnego prawdopodobieństwa. Phyrex implementuje algorytm oparty na maksymalnej oszczędności w celu rekonstrukcji profili ekspresji genów przodków, oprócz metody największej wiarygodności do rekonstrukcji sekwencji genetycznych przodków (poprzez zawijanie wokół funkcji baseml w PAML).
Kilka pakietów oprogramowania rekonstruuje również filogeografię . BEAST (Bayesian Evolutionary Analysis by Sampling Trees) zapewnia narzędzia do rekonstrukcji lokalizacji geograficznych przodków na podstawie obserwowanych sekwencji z adnotacjami dotyczącymi lokalizacji przy użyciu metod próbkowania Bayesa MCMC . Diversitree to pakiet R zapewniający metody rekonstrukcji stanu przodków w Mk2 ( model ewolucji znaków binarnych Markowa w czasie ciągłym ). oraz modele BiSSE (specjacja i wymieranie stanów binarnych). Lagrange przeprowadza analizy dotyczące rekonstrukcji ewolucji zasięgu geograficznego na drzewach filogenetycznych. Phylomapper to struktura statystyczna do szacowania historycznych wzorców przepływu genów i lokalizacji geograficznych przodków. RASP wnioskuje o stanach przodków za pomocą statystycznej analizy rozproszenia-wikarii, metod Lagrange'a, Bayesa-Lagrange'a, BayArea i BBM. VIP wnioskuje o biogeografii historycznej, badając rozłączne rozkłady geograficzne.
Rearanżacje genomu dostarczają cennych informacji w genomice porównawczej między gatunkami. Projekt ANGES porównuje istniejące pokrewne genomy poprzez rekonstrukcję przodków markerów genetycznych. BADGER wykorzystuje podejście bayesowskie do badania historii rearanżacji genów. Hrabia rekonstruuje ewolucję wielkości rodzin genów. EREM analizuje zdobywanie i utratę cech genetycznych zakodowanych przez znaki binarne. PARANA przeprowadza oparte na oszczędności wnioskowanie o biologicznych sieciach przodków, które reprezentują utratę i duplikację genów.
Aplikacje internetowe
Wreszcie, istnieje kilka aplikacji opartych na serwerze sieciowym, które umożliwiają badaczom wykorzystanie metod największej wiarygodności do rekonstrukcji przodków różnych typów postaci bez konieczności instalowania jakiegokolwiek oprogramowania. Na przykład Ancestors to serwer sieciowy do rekonstrukcji genomu przodków poprzez identyfikację i rozmieszczenie syntenicznych . FastML to serwer WWW do probabilistycznej rekonstrukcji sekwencji przodków według maksymalnego prawdopodobieństwa, który wykorzystuje model znaków przerwy do rekonstrukcji indel . MLGO to serwer sieciowy do analizy kolejności genów o największej wiarygodności.
Przyszłe kierunki
Rozwój i zastosowanie algorytmów obliczeniowych do rekonstrukcji przodków nadal jest aktywnym obszarem badań w różnych dyscyplinach. Na przykład rekonstrukcja insercji i delecji sekwencji (indeli) pozostaje w tyle za prostszym zastosowaniem modeli substytucji. Bouchard-Côté i Jordan niedawno opisali nowy model (proces Poissona-Indela), który stanowi ważny postęp w stosunku do archetypowego modelu ewolucji indel Thorne'a-Kishino-Felsensteina. Ponadto dziedzina rozwija się dzięki szybkim postępom w dziedzinie sekwencjonowania nowej generacji , w której sekwencje są generowane z milionów szablonów kwasów nukleinowych poprzez obszerną równoległość reakcji sekwencjonowania w niestandardowej aparaturze. Te postępy umożliwiły wygenerowanie „głębokiego” obrazu składu genetycznego szybko ewoluującej populacji, takiej jak wirusy RNA lub komórki nowotworowe, w stosunkowo krótkim czasie. Jednocześnie ogromna ilość danych i specyficzne dla platformy profile błędów sekwencjonowania stworzyły nowe wyzwania bioinformatyczne w zakresie przetwarzania tych danych w celu rekonstrukcji sekwencji przodków.