PICRUSt

PICRUSt
Oryginalni autorzy Morgan Langille, Jesse Zaneveld, Dan Knights, Joshua A Reyes, Jose C Clemente, Deron E Burkepile, Rebecca L Vega Thurber, Rob Knight , Robert G Beiko, Curtis Huttenhower
Deweloperzy Morgan Langille, Jesse Zaneveld, Daniel McDonald, Greg Caporaso, Gavin Douglas
Pierwsze wydanie 29 lipca 2013 ; 9 lat temu ( 2013-07-29 )
Napisane w Pyton, r
Strona internetowa picrust .github .io /picrust /

PICRUST to pakiet oprogramowania bioinformatycznego . Nazwa jest skrótem od Philogenetic Investigation of Communities by Reconstruction of Unobserved States.

Narzędzie służy w dziedzinie analizy metagenomicznej , gdzie umożliwia wnioskowanie o profilu funkcjonalnym społeczności drobnoustrojów na podstawie badania genów markerowych wzdłuż jednej lub więcej próbek. Zasadniczo PICRUST przyjmuje dostarczoną przez użytkownika jednostek taksonomicznych operacyjnych (zwykle określaną jako tabela OTU), reprezentującą sekwencje genów markerowych (najczęściej klaster 16S ) wraz z jego względną obfitością w każdej z próbek. Dane wyjściowe PICRUst to próbka według macierzy liczby genów funkcjonalnych, określająca liczbę każdego genu funkcjonalnego w każdej z przebadanych próbek. Zdolność PICRUSt do oszacowania funkcjonalnego profilu genu dla danej próbki opiera się na zestawie znanych zsekwencjonowanych genomów . Można to również traktować jako zautomatyzowaną alternatywę dla ręcznego badania rodzin genów, które prawdopodobnie występują w organizmach, których sekwencje znajdują się w rybosomalnym RNA 16S biblioteka amplikonów. Poniższy opis odpowiada oryginalnej wersji PICRUt, ale obecnie opracowywana jest duża aktualizacja tego narzędzia.

Algorytm przewidywania genomu

W początkowej fazie przetwarzania wstępnego PICRUST konstruuje przedziały ufności i prognozy punktowe dla liczby kopii każdej rodziny genów w każdym szczepie bakterii i archeonów w drzewie referencyjnym, wykorzystując jako odniesienie organizmy z sekwencjonowanymi genomami. Dokładniej, dla każdej rodziny genów, PICRUST odwzorowuje znane liczby kopii genów (z kompletnych sekwencjonowanych genomów) na referencyjne drzewo życia. Te liczby kopii rodziny genów są traktowane jako cechy ciągłe i model ewolucyjny skonstruowany przy założeniu ruchów Browna . Te modele ewolucyjne można zbudować za pomocą obu Maksymalne prawdopodobieństwo , Maksymalne prawdopodobieństwo złagodzone lub Oszczędność Wagnera Ten model ewolucyjny jest następnie używany do przewidywania zarówno oszacowania punktowego, jak i przedziału ufności dla liczby kopii mikroorganizmów bez zsekwencjonowanych genomów. Ten krok „przewidywania genomu” tworzy dużą tabelę typów bakterii (w szczególności operacyjną jednostkę taksonomiczną lub OTU) w porównaniu z liczbą kopii rodziny genów. Ta tabela jest dystrybuowana do użytkowników końcowych. Należy zauważyć, że ta metoda przewidywania nie jest tym samym, co podejście najbliższego sąsiada (tj. po prostu wyszukiwanie najbliższego zsekwencjonowanego genomu) i wykazano, że daje niewielką, ale znaczącą poprawę dokładności w porównaniu z tą strategią. Jednak najbliższego sąsiada jest dostępne jako opcja w PICRUST.

Warto zauważyć, że chociaż ta funkcja jest zwykle używana do przewidywania liczby kopii genów w bakteriach, w zasadzie może być używana do przewidywania dowolnej innej ciągłej cechy, biorąc pod uwagę dane dotyczące cech dla różnych organizmów i filogenezy odniesienia .

Langille i wsp. przetestowali dokładność tego etapu przewidywania genomu, stosując walidację krzyżową typu „pomiń jeden poza” na wejściowym zestawie zsekwencjonowanych genomów. Dodatkowe testy zbadały wrażliwość na błędy we wnioskowaniu filogenetycznym , brak danych genomowych oraz dokładność przedziałów ufności dotyczących zawartości genów.

Podobny krok przewiduje liczbę kopii genów 16S rRNA .

Algorytm przewidywania metagenomu

Stosując PICRUST do biblioteki genów 16S rRNA , PICRUST dopasowuje referencyjne operacyjne jednostki taksonomiczne do tabel i pobiera przewidywaną liczbę kopii 16S rRNA i liczbę kopii genów dla każdej rodziny genów. Obfitość każdego OTU jest dzielona przez przewidywaną liczbę kopii (jeśli bakteria ma wiele kopii 16S, jej pozorna obfitość w danych 16S rRNA będzie zawyżona), a następnie mnożona przez liczbę kopii rodziny genów. Daje to prognozę udziału każdego OTU w ogólnej zawartości genów w próbce ( metagenom ). Wreszcie, te indywidualne wkłady są sumowane, aby uzyskać oszacowanie genów obecnych w metagenomie .

Langille i in., 2013 przetestowali dokładność tego etapu przewidywania genomu, wykorzystując wcześniej zgłoszone zestawy danych, w których ta sama próbka biologiczna została poddana amplifikacji genu 16S rRNA i metagenomice shotgun. W tych przypadkach wyniki metagenomiczne strzelby uznano za reprezentację „prawdziwej” społeczności, a biblioteki amplikonu genu 16S rRNA wprowadzono do PICRUSt, aby spróbować przewidzieć te dane. Zestawy danych testowych obejmowały ludzkiego mikrobiomu z Human Microbiome Project , próbki gleby, różne próbki ssaków i próbki z mat mikrobiologicznych Guerrero Negro

Najbliższy sekwencjonowany indeks taksonów

Ponieważ PICRUSt i ogólnie ewolucyjna genomika porównawcza zależą od zsekwencjonowanych genomów, próbki biologiczne z dobrze zbadanych środowisk (wiele zsekwencjonowanych genomów) będą lepiej przewidywane niż słabo zbadane środowiska. Aby ocenić, ile genomów jest dostępnych, PICRUST opcjonalnie umożliwia użytkownikom obliczenie indeksu najbliższego sekwencjonowania taksonów (NSTI) dla ich próbek. Ten wskaźnik odzwierciedla średnią odległość filogenetyczną między każdą 16S rRNA w ich próbce a sekwencją genu 16S rRNA z w pełni zsekwencjonowanego genomu . Ogólnie rzecz biorąc, im niższy wynik NSTI, tym dokładniejsze prognozy PICRUsta. Na przykład wykazał, że PICRUSt był znacznie dokładniejszy na różnych próbkach gleby i próbkach z Human Microbiome Project niż na próbkach mat mikrobiologicznych z Guerrero Negro , które zawierały wiele bakterii bez żadnych zsekwencjonowanych krewnych.

Powiązane narzędzia

Okuda i in., 2012 opublikowali podobną metodę, która wykorzystywała podejście ograniczonego k-najbliższego sąsiedztwa do przewidywania wirtualnych metagenomów. Potwierdzili swoje podejście przy użyciu sekwencji genu 16S rRNA wyekstrahowanych z metagenomów shotgun i porównali przewidywania swojej metody z pełnym metagenomem.

CopyRighter, podobnie jak PICRUSt, wykorzystuje modelowanie ewolucyjne i przewidywanie cech filogenetycznych do oszacowania liczby kopii sekwencji genu 16S rRNA dla każdego typu bakterii i archeonów w próbce, a następnie wykorzystuje te szacunki do skorygowania oszacowań składu społeczności.

PanFP przedstawił podobną metodę, ale opartą na przewidywaniach genomu dla każdej grupy taksonomicznej. Testy porównawcze wykazały bardzo podobną wydajność do PICRUST w porównaniu z tymi samymi zestawami danych. Jedną z zalet jest to, że można użyć wszystkich OTU, nie tylko tych z referencyjnej tabeli filogenezy. Wadą jest to, że nie konstruuje się przedziałów ufności i modeli ewolucyjnych.

PAPRICA to narzędzie do przewidywania metagenomu oparte na umieszczaniu wejściowych sekwencji genów 16S rRNA w znanym drzewie filogenetycznym opartym na odpowiadających im genomach referencyjnych. Główny wynik prognozy odpowiada numerom Enzyme Commission .

Piphillin to narzędzie wyprodukowane przez firmę Second Genome , które tworzy prognozy metagenomu w oparciu o grupowanie najbliższych sąsiadów wejściowych sekwencji genów 16S rRNA z sekwencjami genów 16S rRNA z genomów referencyjnych. Na stronie Second Genome dostępny jest portal internetowy do uruchamiania tego narzędzia. To narzędzie jest stale rozwijane i przechodzi walidację, jak podsumowano w publikacji z 2020 r.

Tax4Fun to podobne narzędzie oparte na łączeniu genów 16S rybosomalnego RNA ze wszystkich organizmów KEGG z sekwencjami genów 16S rRNA znalezionymi w bazie danych rybosomalnego RNA SILVA . Pierwotnie to narzędzie było ograniczone do sekwencji genów 16S rRNA znalezionych w bazie danych SILVA. Jednak najnowsza wersja tego narzędzia, Tax4Fun2, może być używana z OTU lub wariantami sekwencji amplikonu z dowolnego potoku grupowania.