Projekt adnotacji genomu kręgowców
Baza danych VEGA ( ang. Vertebrate Genome Annotation ) to biologiczna baza danych przeznaczona do pomocy naukowcom w lokalizowaniu określonych obszarów genomu i przypisywaniu genów lub regionów genomów kręgowców. Przeglądarka VEGA jest oparta na Ensembl i zapewnia społeczności naukowej publiczne gromadzenie znanych genów kręgowców. Witryna VEGA jest często aktualizowana w celu utrzymania najbardziej aktualnych informacji na temat genomów kręgowców i stara się prezentować konsekwentnie wysokiej jakości adnotacje wszystkich opublikowanych genomów lub regionów genomu kręgowców. VEGA została opracowana przez Wellcome Trust Sanger Institute i jest ściśle powiązana z innymi bazami danych adnotacji, takimi jak ZFIN (The Zebrafish Information Network), Havana Group i GenBank . Ręczna adnotacja jest obecnie dokładniejsza w identyfikowaniu wariantów składania, pseudogenów , cech poliadenylacji , regionów niekodujących i złożonych układów genów niż metody automatyczne.
Historia
Baza danych Vertebrate Genome Annotation (VEGA) została po raz pierwszy upubliczniona w 2004 roku przez Wellcome Trust Sanger Institute. Został zaprojektowany do przeglądania ręcznych adnotacji sekwencji genomowych człowieka, myszy i danio pręgowanego i jest centralną pamięcią podręczną dla centrów sekwencjonowania genomu, w których umieszczane są adnotacje dotyczące ludzkich chromosomów. Ręczna adnotacja danych genomowych jest niezwykle cenna w celu uzyskania dokładnego zestawu genów referencyjnych, ale jest kosztowna w porównaniu z metodami automatycznymi, dlatego została ograniczona do organizmów modelowych. Narzędzia do adnotacji, które zostały opracowane w Wellcome Trust Sanger Institute (WTSI), są obecnie wykorzystywane do wypełnienia tej luki, ponieważ można ich używać zdalnie, otwierając w ten sposób realną współpracę społeczności w zakresie adnotacji. Projekty HAVANA i VEGA były prowadzone przez dr Jennifer Harrow z Wellcome Sanger Institute. VEGA jest archiwizowana od lutego 2017 r., a zespół HAVANA przeniósł się do EMBL-EBI w czerwcu 2017 r.
Ludzki genom
Baza danych Vega jest centralnym repozytorium dla większości centrów sekwencjonowania genomu, w którym umieszczane są ich adnotacje dotyczące ludzkich chromosomów. Od czasu pierwszej publikacji VEGA liczba opisanych loci ludzkich genów wzrosła ponad dwukrotnie do ponad 49 000 (wydanie z września 2012 r.), z czego przewiduje się, że ponad 20 000 koduje białka. Grupa Havana w ramach współpracy w zakresie sekwencji kodowania konsensusu (CCDS) i rozszerzenia całego genomu projektu ENCODE w pełni ręcznie opatrzyła ludzki genom — który jest dostępny do celów referencyjnych, analizy porównawczej i wyszukiwania sekwencji w bazie danych VEGA. Ostateczna wersja VEGA miała miejsce w lutym 2017 r. (wersja 68), a VEGA jest teraz zarchiwizowaną witryną, która nie będzie już aktualizowana.
Inne kręgowce
Baza danych VEGA łączy informacje z poszczególnych baz danych genomu kręgowców i łączy je wszystkie, aby umożliwić naukowcom łatwiejszy dostęp i analizę porównawczą. Zespół zajmujący się analizą i adnotacją ludzi i kręgowców (Havana) w Wellcome Trust Sanger Institute (WTSI) ręcznie opisuje genomy człowieka, myszy i danio pręgowanego za pomocą narzędzia do adnotacji genomu Otterlace / ZMap. System ręcznych adnotacji Otterlace obejmuje relacyjną bazę danych, która przechowuje dane ręcznych adnotacji i obsługuje interfejs graficzny Zmap i jest oparty na schemacie Ensembl.
Danio pręgowany
Genom danio pręgowanego, który jest w pełni sekwencjonowany i ręcznie opatrzony adnotacjami. Genom danio pręgowanego zawiera obecnie 18 454 genów VEGA z adnotacjami — z których 16 588 to przewidywane geny kodujące białka (wydanie z września 2012 r.).
Mysz
Genom myszy zawiera obecnie 23 322 genów VEGA z adnotacjami — z których 14 805 to przewidywane geny kodujące białka (wydanie z czerwca 2012 r.). Loci wybrane do ręcznej adnotacji są rozmieszczone w całym genomie, ale niektóre regiony zyskały większą uwagę niż inne: chromosomy 2, 4, 11 i X, które zostały w pełni opisane. Adnotacja pokazana w tej wersji Vegi pochodzi z zamrożenia danych z 19 marca 2012 r., a struktury genów są przedstawione w połączonym mysim zestawie genetycznym pokazanym w wersji 67 Ensembl. Vega pokazuje również sztuczne loci wygenerowane przez mysie programy Knockout .
Świnia
Genom świni zawiera obecnie adnotacje dotyczące 2842 genów VEGA — z których 2264 to przewidywane geny kodujące białka (wydanie z września 2012 r.). Główny kompleks zgodności tkankowej świni (MHC), znany również jako kompleks antygenu leukocytów świń (SLA), obejmuje obszar 2,4 Mb submetacentrycznego chromosomu 7 (SSC7p1.1-q1.1). Zaangażowany w kontrolę odpowiedzi immunologicznej i podatności na szereg chorób, świński MHC odgrywa wyjątkową rolę w zgodności tkankowej. Chromosomy X-WTSI i Y-WTSI są obecnie opatrzone adnotacjami przez Havanę.
Pies, szympans, walabia i goryl
Genom psa ma obecnie 45 opisanych genów VEGA — z których 29 to przewidywane geny kodujące białka (wydanie z lutego 2005). Genom szympansa ma obecnie 124 opisane geny VEGA — z których 52 to przewidywane geny kodujące białka (wydanie ze stycznia 2012 r.). Genom Wallaby ma obecnie 193 geny VEGA z adnotacjami - z których 76 to przewidywane geny kodujące białka (marzec 2009, wydanie). Genom goryla ma obecnie 324 opisane geny VEGA — z których 176 to przewidywane geny kodujące białka (marzec 2009, wydanie).
Analiza porównawcza
Oprócz pełnych genomów, w przeciwieństwie do innych przeglądarek, VEGA wyświetla również małe gotowe regiony będące przedmiotem zainteresowania z genomów innych kręgowców, ludzkich haplotypów i szczepów myszy. Obecnie obejmuje to ukończoną sekwencję i adnotację głównego kompleksu zgodności tkankowej (MHC) z różnych ludzkich haplotypów oraz psa i świni [z których ten ostatni jest obecnie dostępny tylko w bardzo ograniczonej formie w Ensembl Pre!. Dodatkowo istnieje adnotacja mysiego szczepu NOD (cukrzyca bez otyłości) dla regionów kandydujących na IDD (cukrzyca insulinozależna) i dwóch kolejnych regionów świń.
Vega zawiera porównawczą analizę parami między określonymi regionami genomu z różnych gatunków lub z różnych haplotypów / szczepów. Kontrastuje to z Ensembl, w którym przeprowadza się wiele porównań wszystkich genomów z wszystkimi genomami. Analiza w Vega obejmuje:
1. Identyfikacja dopasowań genomowych za pomocą LastZ. 2. Predykcja par ortologów przy użyciu potoku drzewa genów Ensembl. Należy zauważyć, że chociaż potok generuje filogenetyczne drzewa genealogiczne, ograniczony zakres analizy porównawczej Vega oznacza, że będą one z konieczności niekompletne, w związku z czym na stronie internetowej wyświetlane są tylko ortologi. 3. Ręczna identyfikacja alleli w różnych ludzkich haplotypach lub szczepach myszy.
Dostępnych jest pięć zestawów analiz:
1. Region MHC został porównany między psami, świniami (dwa zespoły), gorylami, szympansami, kangurami, myszami i ośmioma ludzkimi haplotypami:
- chromosom psa 12-MHC
- chromosom goryla 6-MHC
- chromosom 6-MHC szympansa
- chromosom wallaby 2-MHC
- chromosom 7 świni na Sscrofa10.2 (24,7 Mb do 29,8 Mbp)
- chromosom świni 7-MHC
- mysi chromosom 17 (33,3 Mbp do 38,9 Mbp)
- chromosom 6 na ludzkim zestawie referencyjnym (28Mbp do 34Mbp)
- region MHC chromosomu 6 w ludzkich haplotypach COX, QBL, APD, DBB, MANN, MCF i SSTO (fragmenty chromosomów pełnej długości)
2. Porównanie regionów LRC świni, goryla i człowieka (dziewięć haplotypów):
- chromosom świni 6 (53,6 Mbp do 54,0 Mbp)
- chromosom goryla 19-LRC
- ludzki chromosom 19q13.4 (54,6 Mbp do 55,6 Mbp) w zestawie referencyjnym.
- region LRC chromosomu 19 w haplotypach COX_1, COX_2, PGF_1, PGF_2, DM1A, DM1B, MC1A i MC1B (fragmenty chromosomów pełnej długości).
- Regiony cukrzycy insulinozależnej (Idd) na sześciu mysich chromosomach (1, 3, 4, 6, 11 i 17) porównano między referencyjnym CL57BL/6 a jednym lub większą liczbą DIL Non-Obese Diabetic (NOD), CHORI- 29 NOD i 129 szczepów. Dalsze szczegóły opisano tutaj
3. Regiony referencyjnego zespołu CL57BL/6 użyte w tych porównaniach to:
- Idd3.1: chromosom 3, klony AC117584.11 do AC115749.12
- Idd4.1: chromosom 11, klony AL596185.12 do AL663042.5
- Idd4.2: chromosom 11, klony AL663082.5 do AL604065.7
- Idd4.2Q: chromosom 11, klony AL596111.7 do AL645695.18
- Idd5.1: chromosom 1, klony AL683804.15 do AL645534.20
- Idd5.3: chromosom 1, klony AC100180.12 do AC101699.9
- Idd5.4: chromosom 1, klony AC123760.9 do AC109283.8
- Idd6.1 + Idd6.2: chromosom 6, klony AC164704.4 do AC164090.3
- Idd6.3: chromosom 6, klony AC171002.2 do AC163356.2
- Idd9.1: chromosom 4, klony od AL627093.17 do AL670959.8
- Idd9.1M: chromosom 4, klony AL611963.24 do AL669936.12
- Idd9.2: chromosom 4, klony CR788296.8 do AL626808.28
- Idd9.3: chromosom 4, klony AL607078.26 do AL606967.14
- Idd10.1: chromosom 3, klony AC167172.3 do AC131184.4
- Idd16.1: chromosom 17, klony AC125141.4 do AC167363.3
- Idd18.1: chromosom 3, klony AL845310.4 do AL683824.8
- Idd18.2: chromosom 3, klony AC123057.4 do AC129293.9
4. Porównania między trzema określonymi regionami:
- chromosom świni 17 (58,2 Mbp do 67,4 Mbp)
- ludzki chromosom 20q13.13-q13.33 (45,8Mbp do 62,4Mbp)
- mysi chromosom 2 (168,3 Mbp do 179,0 Mbp)
5. Porównania parami między trzema parami pełnej długości chromosomów myszy i człowieka:
- ludzki chromosom 1 i mysi chromosom 4
- ludzki chromosom 17 i mysi chromosom 11
- ludzki chromosom X i mysi chromosom X