Zespoły genomów

Zespoły genomów
Ensembl genomes logo.png
Treść
Opis Zintegrowane źródło danych dotyczących genomu gatunków kręgowców.
Przechwycone typy danych
Genomowa baza danych
Organizmy patelnia
Kontakt
Centrum Badań Europejski Instytut Bioinformatyki
Cytowanie podstawowe Kerseya i in. (2012), Howe i in. (2020)
Data wydania 2009
Dostęp
Strona internetowa https://ensemblgenomes.org/
Pobierz URL ftp://ftp.ensemblgenomes.org/pub/current
Adres URL usługi internetowej https://rest.ensembl.org/
Publiczny dostęp do SQL [email protected]:4157
Różnorodny
Licencja Apache 2.0
Częstotliwość udostępniania danych
4 razy w roku
Wersja Wersja 52 (grudzień 2021 r.)

Ensembl Genomes to projekt naukowy mający na celu dostarczenie danych w skali genomu gatunków innych niż kręgowce.

Projekt jest prowadzony przez Europejski Instytut Bioinformatyki i został uruchomiony w 2009 roku z wykorzystaniem technologii Ensembl . Głównym celem bazy danych Ensembl Genomes jest uzupełnienie głównej bazy danych Ensembl poprzez wprowadzenie pięciu dodatkowych stron internetowych zawierających dane genomu bakterii , grzybów , metazoa bezkręgowców , roślin i protistów . Dla każdej z domen Ensembl do manipulacji, analizy i wizualizacji danych genomu. Większość danych Ensembl Genomes jest przechowywana w relacyjnych bazach danych MySQL i można uzyskać do nich dostęp przez interfejs Ensembl REST, API Perla, Biomart lub online.

Ensembl Genomes to projekt otwarty, a większość kodu, narzędzi i danych jest dostępna publicznie. Oprogramowanie Ensembl i Ensembl Genomes korzysta z licencji licencyjnej Apache 2.0.

Wyświetlanie danych genomowych

Wizualizacja kariotypu w genomach Ensembl

Kluczową cechą Ensembl Genomes jest interfejs graficzny, który pozwala użytkownikom przewijać genom i obserwować względne położenie cech, takich jak adnotacje koncepcyjne (np. geny , loci SNP ), wzorce sekwencji (np. powtórzenia) i dane eksperymentalne (np. sekwencje i zewnętrzne cechy sekwencji zmapowane na genomie ). Dostępne są widoki graficzne dla różnych poziomów rozdzielczości, od całego kariotypu do sekwencji pojedynczego eksonu . Informacje o genomie są podzielone na cztery zakładki, stronę gatunku, zakładkę „Lokalizacja”, zakładkę „ Gen ” i zakładkę „ Transkrypcja ”, z których każda zawiera informacje w wyższej rozdzielczości.

Wyszukiwanie określonego gatunku za pomocą Ensembl Genomes przekierowuje do strony gatunku. Często podawany jest krótki opis gatunku, a także linki do dalszych informacji i statystyk dotyczących genomu , interfejsu graficznego i niektórych dostępnych narzędzi.

Kariotyp jest dostępny dla niektórych gatunków w Ensembl Genomes. Jeśli kariotyp jest dostępny, link do niego będzie dostępny w sekcji Gene Assembly na stronie gatunku. Alternatywnie, jeśli użytkownicy znajdują się w zakładce „Lokalizacja”, mogą również wyświetlić kariotyp, wybierając „Cały genom” w menu po lewej stronie. Użytkownicy mogą kliknąć lokalizację w kariotypie, aby powiększyć jeden określony chromosom lub region genomu. Spowoduje to otwarcie zakładki „Lokalizacja”.

W zakładce „Lokalizacja” użytkownicy mogą przeglądać geny , odmiany, zachowanie sekwencji i inne rodzaje adnotacji wzdłuż genomu . „Region w szczegółach” jest wysoce konfigurowalny i skalowalny, a użytkownicy mogą wybrać, co chcą zobaczyć, klikając przycisk „Konfiguruj tę stronę” u dołu menu po lewej stronie. Dodając i usuwając ślady, użytkownicy będą mogli wybrać rodzaj danych, które chcą uwzględnić na wyświetlaczach. Dane z następujących kategorii można łatwo dodawać lub usuwać z tego widoku zakładki „Lokalizacja”: „ Sekwencja i montaż ”, „ Geny i transkrypty ”, „ Dopasowania mRNA i białek ”, „Inne dopasowania DNA ”, „ Zmienność linii zarodkowej ”, „ Genomika porównawcza ”, m.in. Użytkownicy mogą również zmieniać opcje wyświetlania, takie jak szerokość. Kolejna opcja pozwala użytkownikom zresetować konfigurację do ustawień domyślnych.

Bardziej szczegółowe informacje na temat wybranego genu można znaleźć w zakładce „Gene”. Użytkownicy mogą przejść do tej strony, wyszukując żądany gen na pasku wyszukiwania i klikając identyfikator genu lub klikając jeden z genów pokazanych w widoku zakładki „Lokalizacja”. Zakładka „Gene” zawiera informacje specyficzne dla genu, takie jak struktura genu, liczba transkryptów , pozycja na chromosomie i informacje o homologii w postaci drzew genów. Dostęp do tych informacji można uzyskać za pośrednictwem menu po lewej stronie.

Zakładka „Transkrypcja” pojawi się również, gdy użytkownik zdecyduje się wyświetlić gen. Zakładka „Transkrypcja” zawiera wiele takich samych informacji jak zakładka „Gene”, jednak koncentruje się tylko na jednej transkrypcji.

Narzędzia

Dodawanie niestandardowych ścieżek do genomów Ensembl

Ensembl Genomes umożliwia porównywanie i wizualizację danych użytkownika podczas przeglądania kariotypów i genów. Większość widoków Ensembl Genomes zawiera przycisk „Dodaj swoje dane” lub „Zarządzaj swoimi danymi”, który pozwala użytkownikowi przesyłać nowe ścieżki zawierające odczyty lub sekwencje do Ensembl Genomes lub modyfikować dane, które zostały wcześniej przesłane. Przesłane dane można wizualizować w widokach regionów lub całego kariotypu. Przesłane dane można zlokalizować za pomocą współrzędnych chromosomu lub współrzędnych klonów BAC. Aby przesłać plik danych na dowolną stronę Ensembl Genomes, można użyć następujących metod:

  1. Pliki mniejsze niż 5 MB można przesyłać bezpośrednio z dowolnego komputera lub z adresu internetowego (URL) na serwery Ensembl.
  2. Większe pliki można przesyłać tylko z lokalizacji internetowych (URL).
  3. Pliki BAM można przesyłać tylko przy użyciu podejścia opartego na adresach URL. Plik indeksu (.bam.bai) powinien znajdować się na tym samym serwerze WWW.
  4. Źródło rozproszonego systemu adnotacji można dołączyć z lokalizacji internetowych.

Ensembl Genomes obsługuje następujące typy plików:

Wizualizacja niestandardowej ścieżki oznaczonej jako „Reads” w Ensembl Genomes
  • ŁÓŻKO
  • BedGraph
  • Ogólny
  • GFF/GTF
  • PSL
  • PERUKA
  • BAM
  • Duże łóżko
  • Gruba ryba
  • VCF

Dane są tymczasowo przesyłane na serwery. Zarejestrowani użytkownicy mogą się zalogować i zapisać swoje dane do wykorzystania w przyszłości. Możliwe jest udostępnianie i dostęp do przesłanych danych za pomocą przypisanego adresu URL. Użytkownicy mogą również usuwać swoje niestandardowe utwory z Ensembl Genomes.

BioMart

BioMart to darmowa wyszukiwarka wbudowana w genomy Ensembl i Ensembl (z wyjątkiem bakterii Ensembl) w celu eksploracji i ekstrakcji danych genomowych z baz danych Ensembl w formatach tabel, takich jak HTML, TSV, CSV lub XLS. Wersja 45 (2019) Ensembl Genomes zawiera następujące dane dostępne w BioMarts:

Widok BioMart w Ensembl Plants.

Celem BioMarts w Ensembl Genomes jest umożliwienie użytkownikowi wyszukiwania i pobierania tabel zawierających wszystkie geny dla pojedynczego gatunku, geny w określonym regionie chromosomu lub geny w jednym regionie chromosomu związanego z domeną InterPro. BioMart zawiera również filtry do udoskonalania danych do wyodrębnienia, a atrybuty (identyfikator wariantu, nazwa chromosomu, identyfikator zespołu, lokalizacja itp.), które pojawią się w pliku tabeli końcowej, mogą być wybrane przez użytkownika.

Dostęp do BioMarts można uzyskać online w każdej odpowiedniej domenie Ensembl Genomes lub kod źródłowy można zainstalować w środowisku UNIX z repozytorium BioMart git

PODMUCH

interfejs BLAST , aby umożliwić użytkownikom wyszukiwanie sekwencji DNA lub białek w genomach Ensembl. Dostęp do niego można uzyskać za pomocą nagłówka, znajdującego się na górze wszystkich stron Ensembl Genome, zatytułowanego BLAST . Wyszukiwanie BLAST można skonfigurować do wyszukiwania pojedynczych gatunków lub kolekcji gatunków (maksymalnie 25). Dostępna jest taksonomiczna umożliwiająca wybór gatunków pokrewnych taksonomicznie.

Wyszukiwanie sekwencji

Ensembl Genomes zapewnia narzędzie do wyszukiwania drugiej sekwencji, które wykorzystuje algorytm oparty na Exonerate, który jest dostarczany przez European Nucleotide Archive . Dostęp do tego narzędzia można uzyskać za pomocą nagłówka, znajdującego się na górze wszystkich stron Ensembl Genome, zatytułowanego Wyszukiwanie sekwencji. Użytkownicy mogą następnie wybrać, czy chcą, aby Exonerate przeszukiwał wszystkie gatunki w dziale Ensembl Genomes, czy też wszystkie gatunki w Ensembl Genomes. Mogą również wybrać „Maksymalną wartość E”, która ograniczy wyświetlane wyniki do wyników z wartościami E poniżej maksimum. Wreszcie użytkownicy mogą wybrać alternatywny tryb wyszukiwania, wybierając opcję „Użyj złożonego zapytania”.

Predyktor efektu wariantu

Variant Effect Predictor jest jednym z najczęściej używanych narzędzi w genomach Ensembl i Ensembl. Pozwala zbadać i przeanalizować, jaki wpływ mają warianty (SNP, CNV, indele lub wariacje strukturalne) na konkretny gen, sekwencję, białko, transkrypt lub czynnik transkrypcyjny. Aby użyć VEP, użytkownicy muszą wprowadzić lokalizację swoich wariantów i wariantów nukleotydów, aby wygenerować następujące wyniki:

  • Geny i transkrypty, na które wpływa wariant
  • Lokalizacja wariantów
  • Jak wariant wpływa na syntezę białek (np. generowanie kodonu stop)
  • Porównanie z innymi bazami danych w celu znalezienia równych znanych wariantów

Użytkownicy mogą uzyskać dostęp do VEP na dwa sposoby. Pierwszy formularz jest oparty na Internecie. Na tej stronie użytkownik generuje dane wejściowe, wybierając następujące parametry:

  1. Gatunki do porównania. Domyślną bazą danych do porównania jest Ensembl Transcripts, ale dla niektórych gatunków można wybrać inne źródła.
  2. Nazwa przesyłanych danych (jest opcjonalna, ale ułatwi identyfikację danych, jeśli wykonano wiele zadań VEP)
  3. Wybór formatu wprowadzania danych. Jeśli zostanie wybrany nieprawidłowy format pliku, VEP zgłosi błąd podczas uruchamiania.
  4. Pola do przesyłania danych. Użytkownicy mogą przesyłać dane ze swoich komputerów, z lokalizacji opartej na adresie URL lub kopiując bezpośrednio ich zawartość do pola tekstowego.

Przesyłanie danych do VEP obsługuje notacje VCF, pileup, HGVS i format domyślny. Domyślnym formatem jest plik oddzielony spacjami, który zawiera dane w kolumnach. Pierwsze pięć kolumn wskazuje chromosom, lokalizację początkową, lokalizację końcową, allel (parę alleli oddzielonych znakiem „/”, z allelem referencyjnym na początku) i nić (+ dla przodu lub – dla tyłu). Szósta kolumna to identyfikator odmiany i jest opcjonalna. Jeśli pozostanie puste, VEP przypisze identyfikator do pliku wyjściowego.

VEP zapewnia również użytkownikom dodatkowe opcje identyfikatora, dodatkowe opcje uzupełniające wyjście i filtrowanie. Opcje filtrowania umożliwiają takie funkcje, jak usuwanie znanych wariantów z wyników, zwracanie wariantów tylko w eksonach oraz ograniczanie wyników do określonych konsekwencji wariantów.

Użytkownicy VEP mają również możliwość przeglądania i manipulowania wszystkimi zadaniami związanymi z ich sesją, przeglądając zakładkę „Ostatnie zgłoszenia”. Na tej karcie użytkownicy mogą przeglądać status swoich wyszukiwań (powodzenie, kolejka, uruchomione lub nieudane) oraz zapisywać, usuwać lub ponownie przesyłać zadania.

Drugą opcją użycia VEP jest pobranie kodu źródłowego do użycia w środowiskach UNIX. Wszystkie funkcje są takie same w wersji online i skryptowej. VEP może być również używany z instancjami online, takimi jak Galaxy.

Po zakończeniu zadania VEP wynikiem jest plik tabelaryczny zawierający następujące kolumny:

  1. Przesłana odmiana — jako chromosome_start_alleles
  2. Lokalizacja — w standardowym formacie współrzędnych (chr:start lub chr:start-end)
  3. Allel - wariant allelu używany do obliczenia konsekwencji
  4. Gen — stabilny identyfikator zespołu dotkniętego genu
  5. Cecha — stabilny identyfikator funkcji
  6. Typ cechy - rodzaj cechy. Obecnie jeden z Transcript, RegulatoryFeature, MotifFeature.
  7. Konsekwencja - rodzaj konsekwencji tej odmiany
  8. Pozycja w cDNA - względna pozycja pary zasad w sekwencji cDNA
  9. Pozycja w CDS - względna pozycja pary zasad w sekwencji kodującej
  10. Pozycja w białku - względna pozycja aminokwasu w białku
  11. Zmiana aminokwasu - podawana tylko wtedy, gdy zmiana wpływa na sekwencję kodującą białko
  12. Zmiana kodonu - alternatywne kodony z wariantem podstawy pisanym dużymi literami
  13. Odmiana kolokowana - znany identyfikator istniejącej odmiany
  14. Extra — ta kolumna zawiera dodatkowe informacje w postaci par klucz=wartość oddzielonych znakiem „;”. Wyświetla dodatkowe identyfikatory.
Plik wyjściowy prognozy efektów wariantu

Inne popularne formaty wyjściowe dla VEP obejmują formaty JSON i VDF.

Programowy dostęp do danych

Interfejs Ensembl Genomes [REST] umożliwia dostęp do danych przy użyciu Twojego ulubionego języka programowania.

Możesz także uzyskać dostęp do danych za pomocą Perl API i Biomart.

Obecny gatunek

Ensembl Genomes nie stara się uwzględnić wszystkich możliwych genomów, raczej genomy zawarte na stronie to te, które są uważane za ważne z naukowego punktu widzenia. Każda strona zawiera następującą liczbę gatunków:

  • Dział bakteryjny Ensembl zawiera teraz wszystkie genomy bakteryjne, które zostały całkowicie zsekwencjonowane, opatrzone adnotacjami i przesłane do Międzynarodowej Współpracy Bazy Danych Sekwencji Nukleotydów (Europejskie Archiwum Nukleotydów, GenBank i Baza Danych DNA Japonii). Bieżący zbiór danych zawiera 44 048 genomów.
  • Ensembl Fungi zawiera 1014 genomów
  • Ensembl Metazoa zawiera 78 genomów gatunków bezkręgowców . Główna witryna Ensembl zawiera 236 genomów kręgowców .
  • Ensembl Plants zawiera 67 genomów
  • Ensembl Protists zawiera 237 genomów

Współpraca

Ensembl Genomes stale rozszerza dane adnotacji poprzez współpracę z innymi organizacjami zaangażowanymi w projekty i badania adnotacji genomu. Następujące organizacje są współpracownikami Ensembl Genomes:

Zobacz też

Linki zewnętrzne