Zespoły genomów

Zespoły genomów
Treść
Opis	Zintegrowane źródło danych dotyczących genomu gatunków kręgowców.
Przechwycone typy danych ;	Genomowa baza danych
Organizmy	patelnia
Kontakt
Centrum Badań	Europejski Instytut Bioinformatyki
Cytowanie podstawowe	Kerseya i in. (2012), Howe i in. (2020)
Data wydania	2009
Dostęp
Strona internetowa	https://ensemblgenomes.org/
Pobierz URL	ftp://ftp.ensemblgenomes.org/pub/current
Adres URL usługi internetowej	https://rest.ensembl.org/
Publiczny dostęp do SQL	[email protected]:4157
Różnorodny
Licencja	Apache 2.0
Częstotliwość udostępniania danych ;	4 razy w roku
Wersja	Wersja 52 (grudzień 2021 r.)

Ensembl Genomes to projekt naukowy mający na celu dostarczenie danych w skali genomu gatunków innych niż kręgowce.

Projekt jest prowadzony przez Europejski Instytut Bioinformatyki i został uruchomiony w 2009 roku z wykorzystaniem technologii Ensembl . Głównym celem bazy danych Ensembl Genomes jest uzupełnienie głównej bazy danych Ensembl poprzez wprowadzenie pięciu dodatkowych stron internetowych zawierających dane genomu bakterii , grzybów , metazoa bezkręgowców , roślin i protistów . Dla każdej z domen Ensembl do manipulacji, analizy i wizualizacji danych genomu. Większość danych Ensembl Genomes jest przechowywana w relacyjnych bazach danych MySQL i można uzyskać do nich dostęp przez interfejs Ensembl REST, API Perla, Biomart lub online.

Ensembl Genomes to projekt otwarty, a większość kodu, narzędzi i danych jest dostępna publicznie. Oprogramowanie Ensembl i Ensembl Genomes korzysta z licencji licencyjnej Apache 2.0.

Wyświetlanie danych genomowych

Wizualizacja kariotypu w genomach Ensembl

Kluczową cechą Ensembl Genomes jest interfejs graficzny, który pozwala użytkownikom przewijać genom i obserwować względne położenie cech, takich jak adnotacje koncepcyjne (np. geny , loci SNP ), wzorce sekwencji (np. powtórzenia) i dane eksperymentalne (np. sekwencje i zewnętrzne cechy sekwencji zmapowane na genomie ). Dostępne są widoki graficzne dla różnych poziomów rozdzielczości, od całego kariotypu do sekwencji pojedynczego eksonu . Informacje o genomie są podzielone na cztery zakładki, stronę gatunku, zakładkę „Lokalizacja”, zakładkę „ Gen ” i zakładkę „ Transkrypcja ”, z których każda zawiera informacje w wyższej rozdzielczości.

Wyszukiwanie określonego gatunku za pomocą Ensembl Genomes przekierowuje do strony gatunku. Często podawany jest krótki opis gatunku, a także linki do dalszych informacji i statystyk dotyczących genomu , interfejsu graficznego i niektórych dostępnych narzędzi.

Kariotyp jest dostępny dla niektórych gatunków w Ensembl Genomes. Jeśli kariotyp jest dostępny, link do niego będzie dostępny w sekcji Gene Assembly na stronie gatunku. Alternatywnie, jeśli użytkownicy znajdują się w zakładce „Lokalizacja”, mogą również wyświetlić kariotyp, wybierając „Cały genom” w menu po lewej stronie. Użytkownicy mogą kliknąć lokalizację w kariotypie, aby powiększyć jeden określony chromosom lub region genomu. Spowoduje to otwarcie zakładki „Lokalizacja”.

W zakładce „Lokalizacja” użytkownicy mogą przeglądać geny , odmiany, zachowanie sekwencji i inne rodzaje adnotacji wzdłuż genomu . „Region w szczegółach” jest wysoce konfigurowalny i skalowalny, a użytkownicy mogą wybrać, co chcą zobaczyć, klikając przycisk „Konfiguruj tę stronę” u dołu menu po lewej stronie. Dodając i usuwając ślady, użytkownicy będą mogli wybrać rodzaj danych, które chcą uwzględnić na wyświetlaczach. Dane z następujących kategorii można łatwo dodawać lub usuwać z tego widoku zakładki „Lokalizacja”: „ Sekwencja i montaż ”, „ Geny i transkrypty ”, „ Dopasowania mRNA i białek ”, „Inne dopasowania DNA ”, „ Zmienność linii zarodkowej ”, „ Genomika porównawcza ”, m.in. Użytkownicy mogą również zmieniać opcje wyświetlania, takie jak szerokość. Kolejna opcja pozwala użytkownikom zresetować konfigurację do ustawień domyślnych.

Bardziej szczegółowe informacje na temat wybranego genu można znaleźć w zakładce „Gene”. Użytkownicy mogą przejść do tej strony, wyszukując żądany gen na pasku wyszukiwania i klikając identyfikator genu lub klikając jeden z genów pokazanych w widoku zakładki „Lokalizacja”. Zakładka „Gene” zawiera informacje specyficzne dla genu, takie jak struktura genu, liczba transkryptów , pozycja na chromosomie i informacje o homologii w postaci drzew genów. Dostęp do tych informacji można uzyskać za pośrednictwem menu po lewej stronie.

Zakładka „Transkrypcja” pojawi się również, gdy użytkownik zdecyduje się wyświetlić gen. Zakładka „Transkrypcja” zawiera wiele takich samych informacji jak zakładka „Gene”, jednak koncentruje się tylko na jednej transkrypcji.

Narzędzia

Dodawanie niestandardowych ścieżek do genomów Ensembl

Ensembl Genomes umożliwia porównywanie i wizualizację danych użytkownika podczas przeglądania kariotypów i genów. Większość widoków Ensembl Genomes zawiera przycisk „Dodaj swoje dane” lub „Zarządzaj swoimi danymi”, który pozwala użytkownikowi przesyłać nowe ścieżki zawierające odczyty lub sekwencje do Ensembl Genomes lub modyfikować dane, które zostały wcześniej przesłane. Przesłane dane można wizualizować w widokach regionów lub całego kariotypu. Przesłane dane można zlokalizować za pomocą współrzędnych chromosomu lub współrzędnych klonów BAC. Aby przesłać plik danych na dowolną stronę Ensembl Genomes, można użyć następujących metod:

Pliki mniejsze niż 5 MB można przesyłać bezpośrednio z dowolnego komputera lub z adresu internetowego (URL) na serwery Ensembl.
Większe pliki można przesyłać tylko z lokalizacji internetowych (URL).
Pliki BAM można przesyłać tylko przy użyciu podejścia opartego na adresach URL. Plik indeksu (.bam.bai) powinien znajdować się na tym samym serwerze WWW.
Źródło rozproszonego systemu adnotacji można dołączyć z lokalizacji internetowych.

Ensembl Genomes obsługuje następujące typy plików:

Wizualizacja niestandardowej ścieżki oznaczonej jako „Reads” w Ensembl Genomes

ŁÓŻKO
BedGraph
Ogólny
GFF/GTF
PSL
PERUKA
BAM
Duże łóżko
Gruba ryba
VCF

Dane są tymczasowo przesyłane na serwery. Zarejestrowani użytkownicy mogą się zalogować i zapisać swoje dane do wykorzystania w przyszłości. Możliwe jest udostępnianie i dostęp do przesłanych danych za pomocą przypisanego adresu URL. Użytkownicy mogą również usuwać swoje niestandardowe utwory z Ensembl Genomes.

BioMart

BioMart to darmowa wyszukiwarka wbudowana w genomy Ensembl i Ensembl (z wyjątkiem bakterii Ensembl) w celu eksploracji i ekstrakcji danych genomowych z baz danych Ensembl w formatach tabel, takich jak HTML, TSV, CSV lub XLS. Wersja 45 (2019) Ensembl Genomes zawiera następujące dane dostępne w BioMarts:

Ensembl Protists BioMart: zawiera 33 gatunki i odmiany Phytophthora infestans i Phaeodactylum tricornutum
Ensembl Fungi BioMart: zawiera 56 gatunków i odmian Fusarium graminearum , Fusarium oxysporum , Schizosaccharomyces pombe , Puccinia graminis , Verticillium dahliae , Zymoseptoria tritici i Saccharomyces cerevisiae
Ensembl Metazoa BioMart: zawiera 78 gatunków i odmian Aedes aegypti , Anopheles gambiae i Ixodes scapularis
Ensembl Plants: zawiera 67 gatunków i odmian Arabidopsis thaliana , Brachypodium distachyon , Hordeum vulgare , Oryza glaberrima , Oryza glumipatula , Oryoza sativa indica , Oryza sativa japonica , Solanum lycopersicum , Sorghum bicolor , Triticum aestivum , Vitis vinifera i Ze maj

Widok BioMart w Ensembl Plants.

Celem BioMarts w Ensembl Genomes jest umożliwienie użytkownikowi wyszukiwania i pobierania tabel zawierających wszystkie geny dla pojedynczego gatunku, geny w określonym regionie chromosomu lub geny w jednym regionie chromosomu związanego z domeną InterPro. BioMart zawiera również filtry do udoskonalania danych do wyodrębnienia, a atrybuty (identyfikator wariantu, nazwa chromosomu, identyfikator zespołu, lokalizacja itp.), które pojawią się w pliku tabeli końcowej, mogą być wybrane przez użytkownika.

Dostęp do BioMarts można uzyskać online w każdej odpowiedniej domenie Ensembl Genomes lub kod źródłowy można zainstalować w środowisku UNIX z repozytorium BioMart git

PODMUCH

interfejs BLAST , aby umożliwić użytkownikom wyszukiwanie sekwencji DNA lub białek w genomach Ensembl. Dostęp do niego można uzyskać za pomocą nagłówka, znajdującego się na górze wszystkich stron Ensembl Genome, zatytułowanego BLAST . Wyszukiwanie BLAST można skonfigurować do wyszukiwania pojedynczych gatunków lub kolekcji gatunków (maksymalnie 25). Dostępna jest taksonomiczna umożliwiająca wybór gatunków pokrewnych taksonomicznie.

Wyszukiwanie sekwencji

Ensembl Genomes zapewnia narzędzie do wyszukiwania drugiej sekwencji, które wykorzystuje algorytm oparty na Exonerate, który jest dostarczany przez European Nucleotide Archive . Dostęp do tego narzędzia można uzyskać za pomocą nagłówka, znajdującego się na górze wszystkich stron Ensembl Genome, zatytułowanego Wyszukiwanie sekwencji. Użytkownicy mogą następnie wybrać, czy chcą, aby Exonerate przeszukiwał wszystkie gatunki w dziale Ensembl Genomes, czy też wszystkie gatunki w Ensembl Genomes. Mogą również wybrać „Maksymalną wartość E”, która ograniczy wyświetlane wyniki do wyników z wartościami E poniżej maksimum. Wreszcie użytkownicy mogą wybrać alternatywny tryb wyszukiwania, wybierając opcję „Użyj złożonego zapytania”.

Predyktor efektu wariantu

Variant Effect Predictor jest jednym z najczęściej używanych narzędzi w genomach Ensembl i Ensembl. Pozwala zbadać i przeanalizować, jaki wpływ mają warianty (SNP, CNV, indele lub wariacje strukturalne) na konkretny gen, sekwencję, białko, transkrypt lub czynnik transkrypcyjny. Aby użyć VEP, użytkownicy muszą wprowadzić lokalizację swoich wariantów i wariantów nukleotydów, aby wygenerować następujące wyniki:

Geny i transkrypty, na które wpływa wariant
Lokalizacja wariantów
Jak wariant wpływa na syntezę białek (np. generowanie kodonu stop)
Porównanie z innymi bazami danych w celu znalezienia równych znanych wariantów

Użytkownicy mogą uzyskać dostęp do VEP na dwa sposoby. Pierwszy formularz jest oparty na Internecie. Na tej stronie użytkownik generuje dane wejściowe, wybierając następujące parametry:

Gatunki do porównania. Domyślną bazą danych do porównania jest Ensembl Transcripts, ale dla niektórych gatunków można wybrać inne źródła.
Nazwa przesyłanych danych (jest opcjonalna, ale ułatwi identyfikację danych, jeśli wykonano wiele zadań VEP)
Wybór formatu wprowadzania danych. Jeśli zostanie wybrany nieprawidłowy format pliku, VEP zgłosi błąd podczas uruchamiania.
Pola do przesyłania danych. Użytkownicy mogą przesyłać dane ze swoich komputerów, z lokalizacji opartej na adresie URL lub kopiując bezpośrednio ich zawartość do pola tekstowego.

Przesyłanie danych do VEP obsługuje notacje VCF, pileup, HGVS i format domyślny. Domyślnym formatem jest plik oddzielony spacjami, który zawiera dane w kolumnach. Pierwsze pięć kolumn wskazuje chromosom, lokalizację początkową, lokalizację końcową, allel (parę alleli oddzielonych znakiem „/”, z allelem referencyjnym na początku) i nić (+ dla przodu lub – dla tyłu). Szósta kolumna to identyfikator odmiany i jest opcjonalna. Jeśli pozostanie puste, VEP przypisze identyfikator do pliku wyjściowego.

VEP zapewnia również użytkownikom dodatkowe opcje identyfikatora, dodatkowe opcje uzupełniające wyjście i filtrowanie. Opcje filtrowania umożliwiają takie funkcje, jak usuwanie znanych wariantów z wyników, zwracanie wariantów tylko w eksonach oraz ograniczanie wyników do określonych konsekwencji wariantów.

Użytkownicy VEP mają również możliwość przeglądania i manipulowania wszystkimi zadaniami związanymi z ich sesją, przeglądając zakładkę „Ostatnie zgłoszenia”. Na tej karcie użytkownicy mogą przeglądać status swoich wyszukiwań (powodzenie, kolejka, uruchomione lub nieudane) oraz zapisywać, usuwać lub ponownie przesyłać zadania.

Drugą opcją użycia VEP jest pobranie kodu źródłowego do użycia w środowiskach UNIX. Wszystkie funkcje są takie same w wersji online i skryptowej. VEP może być również używany z instancjami online, takimi jak Galaxy.

Po zakończeniu zadania VEP wynikiem jest plik tabelaryczny zawierający następujące kolumny:

Przesłana odmiana — jako chromosome_start_alleles
Lokalizacja — w standardowym formacie współrzędnych (chr:start lub chr:start-end)
Allel - wariant allelu używany do obliczenia konsekwencji
Gen — stabilny identyfikator zespołu dotkniętego genu
Cecha — stabilny identyfikator funkcji
Typ cechy - rodzaj cechy. Obecnie jeden z Transcript, RegulatoryFeature, MotifFeature.
Konsekwencja - rodzaj konsekwencji tej odmiany
Pozycja w cDNA - względna pozycja pary zasad w sekwencji cDNA
Pozycja w CDS - względna pozycja pary zasad w sekwencji kodującej
Pozycja w białku - względna pozycja aminokwasu w białku
Zmiana aminokwasu - podawana tylko wtedy, gdy zmiana wpływa na sekwencję kodującą białko
Zmiana kodonu - alternatywne kodony z wariantem podstawy pisanym dużymi literami
Odmiana kolokowana - znany identyfikator istniejącej odmiany
Extra — ta kolumna zawiera dodatkowe informacje w postaci par klucz=wartość oddzielonych znakiem „;”. Wyświetla dodatkowe identyfikatory.

Plik wyjściowy prognozy efektów wariantu

Inne popularne formaty wyjściowe dla VEP obejmują formaty JSON i VDF.

Programowy dostęp do danych

Interfejs Ensembl Genomes [REST] umożliwia dostęp do danych przy użyciu Twojego ulubionego języka programowania.

Możesz także uzyskać dostęp do danych za pomocą Perl API i Biomart.

Obecny gatunek

Ensembl Genomes nie stara się uwzględnić wszystkich możliwych genomów, raczej genomy zawarte na stronie to te, które są uważane za ważne z naukowego punktu widzenia. Każda strona zawiera następującą liczbę gatunków:

Dział bakteryjny Ensembl zawiera teraz wszystkie genomy bakteryjne, które zostały całkowicie zsekwencjonowane, opatrzone adnotacjami i przesłane do Międzynarodowej Współpracy Bazy Danych Sekwencji Nukleotydów (Europejskie Archiwum Nukleotydów, GenBank i Baza Danych DNA Japonii). Bieżący zbiór danych zawiera 44 048 genomów.
Ensembl Fungi zawiera 1014 genomów
Ensembl Metazoa zawiera 78 genomów gatunków bezkręgowców . Główna witryna Ensembl zawiera 236 genomów kręgowców .
Ensembl Plants zawiera 67 genomów
Ensembl Protists zawiera 237 genomów

Współpraca

Ensembl Genomes stale rozszerza dane adnotacji poprzez współpracę z innymi organizacjami zaangażowanymi w projekty i badania adnotacji genomu. Następujące organizacje są współpracownikami Ensembl Genomes:

AllBio
Jęczmień
Culicoides sonorensis
Gramena
INFRAVEC
Mikrom
PomBase
Fitościeżka
przeszczep
Genomika Triticeae dla zrównoważonego rolnictwa
Baza wektorów
Poprawa genomu rdzy pszenicy
WormBase
WormBase ParaSite

Zobacz też

Linki zewnętrzne

Treść

Opis	Zintegrowane źródło danych dotyczących genomu gatunków kręgowców.
Przechwycone typy danych	Genomowa baza danych
Organizmy	patelnia
Kontakt
Centrum Badań	Europejski Instytut Bioinformatyki
Cytowanie podstawowe	Kerseya i in. (2012), Howe i in. (2020)
Data wydania	2009
Dostęp
Strona internetowa	https://ensemblgenomes.org/
Pobierz URL	ftp://ftp.ensemblgenomes.org/pub/current
Adres URL usługi internetowej	https://rest.ensembl.org/
Publiczny dostęp do SQL	[email protected]:4157
Różnorodny
Licencja	Apache 2.0
Częstotliwość udostępniania danych	4 razy w roku
Wersja	Wersja 52 (grudzień 2021 r.)