Rekonstrukcja sekwencji przodków

Rekonstrukcja sekwencji przodków ( ASR ) – znana również jako rekonstrukcja genu / sekwencji / wskrzeszenia przodków – jest techniką stosowaną w badaniu ewolucji molekularnej . Sposób wykorzystuje pokrewne sekwencje do rekonstrukcji „przodkowego” genu z dopasowania wielu sekwencji .

Metodę tę można wykorzystać do „wskrzeszenia” białek przodków i została ona zaproponowana w 1963 roku przez Linusa Paulinga i Emile'a Zuckerkandla . W przypadku enzymów podejście to nazwano paleoenzymologią (ang. paleoenzymology). W latach 80. i 90. podjęto pewne wczesne wysiłki, kierowane przez laboratorium Stevena A. Bennera , pokazujące potencjał tej techniki. Dzięki udoskonaleniu algorytmów oraz lepszym technikom sekwencjonowania i syntezy, metoda ta była dalej rozwijana na początku XXI wieku, aby umożliwić wskrzeszenie większej różnorodności i znacznie starszych genów. W ciągu ostatniej dekady zmartwychwstanie białek przodków rozwinęło się jako strategia ujawniania mechanizmów i dynamiki ewolucji białek.

Zasady

Ilustracja drzewa filogenetycznego i jego roli w konceptualizacji sposobu przeprowadzania ASR.
Algorytm rekonstrukcji sekwencji przodków 1,2 i 3 (w odniesieniu do rysunku powyżej). Sekwencję przodków sekwencji 1 można zrekonstruować z B i C, o ile dostępna jest co najmniej jedna grupa zewnętrzna, np. D lub E. Na przykład sekwencje B i C różnią się w pozycji 4, ale ponieważ sekwencje D i E mają C w tej pozycji, sekwencja 1 najprawdopodobniej również miała C. Sekwencji 3 nie można całkowicie zrekonstruować bez dodatkowej sekwencji grupy obcej (niepewność wskazana przez „X”).

W przeciwieństwie do konwencjonalnych ewolucyjnych i biochemicznych podejść do badania białek, tj. tzw. poziomego porównania powiązanych homologów białek z różnych końców drzewa życia ; ASR sonduje statystycznie wywnioskowane białka przodków w węzłach drzewa - w sposób pionowy (patrz diagram po prawej). Podejście to daje dostęp do właściwości białek, które mogły powstać przejściowo w czasie ewolucji i zostało ostatnio wykorzystane jako sposób wnioskowania o potencjalnej presji selekcyjnej , która doprowadziła do powstania współczesnych sekwencji. ASR zastosowano do zbadania mutacji sprawczej, która spowodowała neofunkcjonalizację białka po duplikacji, najpierw określając, że wspomniana mutacja była zlokalizowana między przodkami „5” i „4” na diagramie (ilustracyjnie) przy użyciu testów funkcjonalnych. W dziedzinie biofizyki białek ASR był również używany do badania rozwoju krajobrazów termodynamicznych i kinetycznych białek w czasie ewolucji, a także ścieżek fałdowania białek poprzez połączenie wielu współczesnych technik analitycznych, takich jak HX / MS . Tego rodzaju spostrzeżenia są zazwyczaj wywnioskowane na podstawie kilku przodków zrekonstruowanych wzdłuż filogenezy – odnosząc się do poprzedniej analogii, poprzez badanie węzłów znajdujących się coraz wyżej (dalej i dalej wstecz w czasie ewolucji) w drzewie życia.

Większość badań ASR jest prowadzona in vitro i ujawniła właściwości białek przodków, które wydają się być ewolucyjnie pożądanymi cechami - takie jak zwiększona termostabilność, aktywność katalityczna i rozwiązłość katalityczna. Dane te zostały przypisane artefaktom algorytmów ASR, a także orientacyjnym ilustracjom środowiska starożytnej Ziemi - często badania ASR muszą być uzupełnione obszernymi kontrolami (zwykle alternatywnymi eksperymentami ASR), aby złagodzić błąd algorytmu. Nie wszystkie badane białka ASR wykazują tak zwaną „wyższość przodków”. Powstająca dziedzina „ biochemii ewolucyjnej ” została wzmocniona przez niedawny wzrost badań ASR wykorzystujących przodków jako sposoby badania sprawności organizmu w określonych kontekstach komórkowych – skutecznie testując białka przodków in vivo . Ze względu na nieodłączne ograniczenia tego rodzaju badań – przede wszystkim brak odpowiednio starożytnych genomów, do których można by dopasować tych przodków, mały repertuar dobrze skategoryzowanych systemów modeli laboratoryjnych oraz niemożność naśladowania starożytnych środowisk komórkowych; przeprowadzono bardzo niewiele badań ASR in vivo . Pomimo wyżej wymienionych przeszkód, wstępny wgląd w ten kierunek badań z artykułu z 2015 roku ujawnił, że zaobserwowana „wyższość przodków” in vitro nie została podsumowana in vivo danego białka. ASR przedstawia jeden z nielicznych mechanizmów badania biochemii ery życia prekambryjskiego (>541 mln lat temu) i dlatego jest często używany w „ palogenetyce ”; w rzeczywistości Zuckerandl i Pauling pierwotnie zamierzali, aby ASR była punktem wyjścia dla dziedziny, którą nazwali „paleobiochemią”.

Metodologia

Kilka pokrewnych homologów białka będącego przedmiotem zainteresowania wybiera się i dopasowuje w dopasowaniu wielu sekwencji (MSA), konstruuje się „ drzewo filogenetyczne ” ze statystycznie wywnioskowanymi sekwencjami w węzłach rozgałęzień. To właśnie te sekwencje są tak zwanymi „przodkami” – proces syntezy odpowiedniego DNA, przekształcenia go w komórkę i wytworzenia białka to tak zwana „rekonstrukcja”. Sekwencje przodków są zwykle obliczane na podstawie maksymalnego prawdopodobieństwa , jednak stosowane są również metody bayesowskie . Ponieważ przodkowie są wywnioskowani z filogenezy, topologia i skład filogenezy odgrywa główną rolę w wyjściowych sekwencjach ASR. Biorąc pod uwagę, że istnieje wiele dyskursów i debat na temat tego, jak konstruować filogenezy - na przykład, czy bakterie termofilne są podstawowe lub pochodne w ewolucji bakterii - wiele artykułów ASR konstruuje kilka filogenez o różnych topologiach, a tym samym różnych sekwencjach ASR. Sekwencje te są następnie porównywane i często kilka (~10) ulega ekspresji i bada na węzeł filogenetyczny. ASR nie twierdzi, że odtwarza rzeczywistą sekwencję starożytnego białka/DNA, ale raczej sekwencję, która prawdopodobnie będzie podobna do tej, która rzeczywiście znajdowała się w węźle. Nie uważa się tego za wadę ASR, ponieważ pasuje ona do modelu ewolucji białek „ neutralnej sieci ”, zgodnie z którym w ewolucyjnych węzłach (węzłach) w istniejącej populacji organizmów istniała populacja genotypowo różnych, ale fenotypowo podobnych sekwencji białek. Dlatego możliwe jest, że ASR wygeneruje jedną z sekwencji neutralnej sieci węzła i chociaż może nie reprezentować genotypu ostatniego wspólnego przodka współczesnych sekwencji, prawdopodobnie reprezentuje fenotyp. Potwierdzają to współczesne obserwacje, że wiele mutacji w miejscu niekatalitycznym/funkcjonalnym białka powoduje niewielkie zmiany we właściwościach biofizycznych. Dlatego ASR pozwala badać właściwości biofizyczne dawnych białek i wskazuje na starożytną genetykę.

Metody największej wiarygodności (ML) działają poprzez generowanie sekwencji, w której przewiduje się, że reszta w każdej pozycji z największym prawdopodobieństwem zajmie tę pozycję za pomocą zastosowanej metody wnioskowania - zazwyczaj jest to macierz punktacji (podobna do tych stosowanych w BLAST lub MSA ) obliczone na podstawie zachowanych sekwencji. Alternatywne metody obejmują maksymalne oszczędności (MP), które konstruują sekwencję w oparciu o model ewolucji sekwencji - zwykle pomysł, że minimalna liczba zmian sekwencji nukleotydów reprezentuje najbardziej wydajną drogę ewolucji, a według brzytwy Ockhama jest najbardziej prawdopodobna. MP jest często uważana za najmniej niezawodną metodę rekonstrukcji, ponieważ prawdopodobnie nadmiernie upraszcza ewolucję do stopnia, którego nie można zastosować w skali miliarda lat.

Inna metoda polega na uwzględnieniu niepewności reszty – tak zwane metody bayesowskie – ta forma ASR jest czasami używana jako uzupełnienie metod ML, ale zazwyczaj daje bardziej niejednoznaczne sekwencje. W ASR termin „niejednoznaczność” odnosi się do pozycji reszt, w których nie można przewidzieć wyraźnego podstawienia – często w takich przypadkach powstaje kilka sekwencji ASR, obejmujących większość niejasności i porównywanych ze sobą. ML ASR często wymaga uzupełniających eksperymentów, aby wskazać, że wyprowadzone sekwencje są czymś więcej niż tylko konsensusami sekwencji wejściowych. Jest to szczególnie konieczne w przypadku obserwacji „wyższości przodków”. W trendzie zwiększania termostabilności jednym wyjaśnieniem jest to, że ML ASR tworzy konsensusową sekwencję kilku różnych, równoległych mechanizmów, które wyewoluowały w celu nadania mniejszej termostabilności białka w całej filogenezie - co prowadzi do efektu addytywnego skutkującego „wyższą” termostabilnością przodków.

Ekspresja sekwencji konsensusowych i równoległych ASR za pomocą metod innych niż ML jest często wymagana do rozwiązania tej teorii na eksperyment. Innym problemem związanym z metodami ML jest to, że macierze punktacji pochodzą z nowoczesnych sekwencji, a poszczególne częstotliwości aminokwasów obserwowane obecnie mogą nie być takie same jak w biologii prekambryjskiej, co skutkuje wypaczonym wnioskowaniem o sekwencji. W kilku badaniach podjęto próbę skonstruowania starożytnych macierzy punktacji za pomocą różnych metodologii i porównano powstałe sekwencje i właściwości biofizyczne ich białek. Chociaż te zmodyfikowane sekwencje skutkują nieco innymi sekwencjami ASR, obserwowane właściwości biofizyczne nie wydawały się różnić poza błędem eksperymentalnym. Ze względu na „holistyczny” charakter ASR i ogromną złożoność, która pojawia się, gdy weźmie się pod uwagę wszystkie możliwe źródła błędów eksperymentalnych – społeczność eksperymentalna uważa, że ​​ostatecznym pomiarem niezawodności ASR jest porównanie kilku alternatywnych rekonstrukcji ASR tego samego węzła i identyfikacja podobnych właściwości biofizycznych. Chociaż ta metoda nie oferuje solidnej statystycznej, matematycznej miary wiarygodności, opiera się ona na fundamentalnej idei stosowanej w ASR, że poszczególne substytucje aminokwasów nie powodują znaczących zmian właściwości biofizycznych w białku – najemca, który musi być uznany za prawdziwy, aby aby móc przezwyciężyć efekt niejednoznaczności wnioskowania.

Kandydaci wykorzystywani do ASR są często wybierani na podstawie konkretnej badanej właściwości – np. termostabilności. Wybierając sekwencje z dowolnego końca zakresu właściwości (np. białek psychrofilnych i białek termofilnych), ale w ramach rodziny białek, ASR można wykorzystać do zbadania specyficznych zmian sekwencji, które nadały obserwowany efekt biofizyczny - takich jak interakcje stabilizujące. Rozważmy na diagramie, jeśli sekwencja „A” kodowała białko, które było optymalnie funkcjonalne w obojętnym pH i „D” w warunkach kwaśnych, zmiany sekwencji między „5” a „2” mogą ilustrować dokładne biofizyczne wyjaśnienie tej różnicy. Ponieważ eksperymenty ASR mogą wyodrębnić przodków, którzy prawdopodobnie mają miliardy lat, często występują dziesiątki, jeśli nie setki zmian sekwencji między samymi przodkami a przodkami i istniejącymi sekwencjami - z tego powodu takie badania ewolucyjne funkcji sekwencji mogą wymagać dużo pracy i racjonalny kierunek.

ASR może być obciążony z powodu wielu źródeł błędów, takich jak obciążone drzewo filogenetyczne (tj. z powodu rekombinacji) lub nierealistyczny model podstawienia.

Zmartwychwstałe białka

Istnieje wiele przykładów białek przodków, które zostały zrekonstruowane komputerowo, poddane ekspresji w żywych liniach komórkowych i – w wielu przypadkach – oczyszczone i zbadane biochemicznie. Laboratorium Thornton w szczególności wskrzesiło kilka przodków receptorów hormonalnych (z około 500 mA) i współpracowało z laboratorium Stevensa w celu wskrzeszenia starożytnych podjednostek V-ATPazy z drożdży (800 mA). Laboratorium Marqusee opublikowało ostatnio kilka badań dotyczących ewolucyjnej historii biofizycznej rybonukleazy H1 E. coli . Niektóre inne przykłady to przodkowie barwników wizualnych u kręgowców, enzymy w drożdżach, które rozkładają cukry (800 mA); enzymy u bakterii , które zapewniają oporność na antybiotyki (2 – 3 Ga ); rybonukleazy biorące udział w trawieniu przeżuwaczy; oraz dehydrogenazy alkoholowe (Adhs) zaangażowane w fermentację drożdży (~85 mA). „Wiek” zrekonstruowanej sekwencji określa się za pomocą zegara molekularnego , a często stosuje się kilka. Ta technika datowania jest często kalibrowana przy użyciu geologicznych punktów czasowych (takich jak składniki starożytnych oceanów lub BIF ) i chociaż te zegary oferują jedyną metodę wnioskowania o wieku bardzo starożytnego białka, mają szerokie marginesy błędu i są trudne do obrony przed sprzecznymi danymi. W tym celu „wiek” ASR powinien być używany wyłącznie jako cecha orientacyjna i często jest całkowicie przekraczany do pomiaru liczby podstawień między sekwencjami przodków i współczesnych (podstawa, na której obliczany jest zegar). Biorąc to pod uwagę, użycie zegara pozwala porównać obserwowane dane biofizyczne białka ASR z ówczesnym środowiskiem geologicznym lub ekologicznym. Na przykład badania ASR na bakteryjnym EF-Tus (białka biorące udział w translacji , które prawdopodobnie rzadko podlegają HGT i zazwyczaj wykazują Tms ~ 2C większe niż Tenv) wskazują na gorętszą Ziemię prekambryjską, co bardzo ściśle pasuje do danych geologicznych dotyczących temperatur oceanów starożytnej Ziemi na podstawie poziomów izotopowych tlenu-18 . Badania ASR drożdży Adh ujawniają, że pojawienie się podfunkcjonalnych Adh do metabolizmu etanolu (nie tylko wydalania odpadów) nastąpiło w czasie podobnym do początku mięsistych owoców w okresie kambru i że przed tym pojawieniem się Adh służył do wydalania etanolu jako produkt uboczny nadmiaru pirogronianu . Użycie zegara może również wskazywać, że pochodzenie życia miało miejsce, zanim wskażą to najwcześniejsze skamieliny molekularne (> 4,1 Ga), ale biorąc pod uwagę dyskusyjną niezawodność zegarów molekularnych, takie obserwacje należy traktować ostrożnie.

Tioredoksyna

Jednym z przykładów jest rekonstrukcja enzymów tioredoksyny z organizmów mających nawet 4 miliardy lat. Podczas gdy aktywność chemiczna tych zrekonstruowanych enzymów była niezwykle podobna do współczesnych enzymów, ich właściwości fizyczne wykazały znacznie podwyższoną stabilność termiczną i kwasową. Wyniki te zinterpretowano jako sugerujące, że starożytne życie mogło ewoluować w oceanach, które były znacznie gorętsze i bardziej kwaśne niż obecnie.

Znaczenie

Eksperymenty te odpowiadają na różne ważne pytania w biologii ewolucyjnej: czy ewolucja przebiega małymi krokami, czy dużymi skokami; czy ewolucja jest odwracalna; jak złożoność ? Wykazano, że niewielkie mutacje w sekwencji aminokwasowej receptorów hormonalnych determinują istotną zmianę ich preferencji względem hormonów. Zmiany te oznaczają ogromne postępy w ewolucji układu hormonalnego . Tak więc bardzo małe zmiany na poziomie molekularnym mogą mieć ogromne konsekwencje. Laboratorium Thornton było również w stanie wykazać, że ewolucja jest nieodwracalna, badając receptor glukokortykoidowy . Receptor ten został zmieniony przez siedem mutacji w receptorze kortyzolu, ale odwrócenie tych mutacji nie przywróciło pierwotnego receptora. Wskazywanie, że epistaza odgrywa główną rolę w ewolucji białek – obserwacja, która w połączeniu z obserwacjami kilku przykładów równoległych ewolucji wspiera wspomniany powyżej neutralny model sieci. Inne wcześniejsze neutralne mutacje działały jak mechanizm zapadkowy i powodowały, że zmiany w receptorze były nieodwracalne. Te różne eksperymenty na receptorach pokazują, że podczas ewolucji białka są bardzo zróżnicowane, co wyjaśnia, jak może ewoluować złożoność. Bliższe przyjrzenie się różnym receptorom hormonów przodków i różnym hormonom pokazuje, że na poziomie interakcji między pojedynczymi resztami aminokwasowymi a grupami chemicznymi hormonów powstają bardzo małe, ale specyficzne zmiany. Wiedza o tych zmianach może np. doprowadzić do syntezy odpowiedników hormonalnych zdolnych do naśladowania lub hamowania działania hormonu, co może otworzyć możliwości dla nowych terapii.

Biorąc pod uwagę, że ASR ujawniła tendencję do starożytnej termostabilności i rozwiązłości enzymatycznej, ASR stanowi cenne narzędzie dla inżynierów białek , którzy często pragną tych cech (wytwarzając efekty czasami większe niż obecne, racjonalnie prowadzone narzędzia). ASR obiecuje również „wskrzeszenie” fenotypowo podobnych „starożytnych organizmów”, co z kolei pozwoliłoby biochemikom ewolucyjnym zbadać historię życia. Zwolennicy ASR, tacy jak Benner, twierdzą, że dzięki tym i innym eksperymentom koniec obecnego stulecia przyniesie poziom zrozumienia w biologii analogiczny do tego, który powstał w chemii klasycznej w ubiegłym stuleciu.