Ludzki genom
Identyfikator genomu NCBI | |
---|---|
Ploidia | diploidalny |
Rozmiar genomu | 3117275501 par zasad (bp) |
Liczba chromosomów | 23 pary |
Ludzki genom to kompletny zestaw sekwencji kwasów nukleinowych dla ludzi , zakodowanych jako DNA w obrębie 23 par chromosomów w jądrach komórkowych oraz w małej cząsteczce DNA znajdującej się w poszczególnych mitochondriach . Są one zwykle traktowane oddzielnie jako genom jądrowy i genom mitochondrialny . Ludzkie genomy obejmują zarówno sekwencje DNA kodujące białka, jak i różne typy DNA, które nie kodują białek . Ta ostatnia jest zróżnicowaną kategorią, która obejmuje DNA kodujące nieulegający translacji RNA, taki jak rybosomalny RNA , transferowy RNA , rybozymy , małe jądrowe RNA i kilka rodzajów regulatorowych RNA . Obejmuje również promotory i związane z nimi elementy regulujące geny , DNA odgrywające role strukturalne i replikacyjne, takie jak regiony rusztowania , telomery , centromery i miejsca inicjacji replikacji , a także dużą liczbę elementy transpozycyjne , wstawiony wirusowy DNA, niefunkcjonalne pseudogeny i proste, wysoce powtarzalne sekwencje . Introny stanowią duży procent niekodującego DNA . Część tego niekodującego DNA to niefunkcjonalne śmieciowe DNA , takie jak pseudogeny, ale nie ma zdecydowanego konsensusu co do całkowitej ilości śmieciowego DNA.
Haploidalne genomy ludzkie, które są zawarte w komórkach rozrodczych ( komórki jajowe i gamety plemników powstające w fazie mejozy rozmnażania płciowego przed zapłodnieniem ) składają się z 3 054 815 472 par zasad DNA (jeśli używany jest chromosom X), podczas gdy genomy diploidalne żeńskie (występujące w komórkach somatycznych komórki ) mają dwukrotnie większą zawartość DNA.
Chociaż istnieją znaczne różnice między genomami osobników ludzkich (rzędu 0,1% z powodu wariantów pojedynczych nukleotydów i 0,6% w przypadku indeli ), są one znacznie mniejsze niż różnice między ludźmi a ich najbliższymi żyjącymi krewnymi, bonobo i szympansy (~ 1,1% utrwalonych wariantów pojedynczego nukleotydu i 4% z uwzględnieniem indeli). Rozmiar w parach podstawowych również może się różnić; długość telomerów zmniejsza się po każdej rundzie replikacji DNA .
Chociaż sekwencja ludzkiego genomu została całkowicie określona przez sekwencjonowanie DNA w 2022 roku (w tym metylację ), nie jest jeszcze w pełni poznana. Większość, ale nie wszystkie geny zostały zidentyfikowane przez połączenie podejść eksperymentalnych i bioinformatycznych o dużej przepustowości , jednak nadal pozostaje wiele do zrobienia, aby dokładniej wyjaśnić funkcje biologiczne ich produktów białkowych i RNA (w szczególności adnotacja kompletnego genu CHM13v2 sekwencja .0 jest nadal w toku). A jednak nakładające się geny są dość powszechne, w niektórych przypadkach pozwalając dwóm genom kodującym białka z każdej nici na dwukrotne ponowne wykorzystanie par zasad (na przykład geny DCDC2 i KAAG1). Ostatnie wyniki sugerują, że większość ogromnych ilości niekodującego DNA w genomie ma powiązane działania biochemiczne, w tym regulację ekspresji genów , organizację architektury chromosomów i sygnały kontrolujące dziedziczenie epigenetyczne . [ potrzebne źródło ] Istnieje również znaczna liczba retrowirusów w ludzkim DNA , z których co najmniej 3 udowodniono, że pełnią ważną funkcję (tj. HIV -podobne HERV-K, HERV-W i HERV-FRD odgrywają rolę w tworzeniu łożyska poprzez indukowanie fuzji komórka-komórka).
W 2003 roku naukowcy poinformowali o zsekwencjonowaniu 85% całego ludzkiego genomu, ale od 2020 roku nadal brakowało co najmniej 8%.
W 2021 roku naukowcy zgłosili sekwencjonowanie całego genomu kobiety (tj. bez chromosomu Y). Ta sekwencja zidentyfikowała 19 969 białka , stanowiących około 1,5% genomu i łącznie 63 494 genów, z których większość to niekodujące geny RNA. Genom składa się z regulatorowych sekwencji DNA , LINE , SINE , intronów i sekwencji, dla których nie określono jeszcze żadnej funkcji . Ludzki chromosom Y , składający się z 62 460 029 par zasad z innej linii komórkowej i znaleziony u wszystkich samców, został całkowicie zsekwencjonowany w styczniu 2022 r.
Sekwencjonowanie
Pierwsze sekwencje ludzkiego genomu zostały opublikowane w prawie kompletnej formie roboczej w lutym 2001 r. przez Human Genome Project i Celera Corporation . Zakończenie prac nad sekwencjonowaniem Human Genome Project ogłoszono w 2004 r. Publikacją wstępnej sekwencji genomu, pozostawiając zaledwie 341 luk w sekwencji, reprezentujących wysoce powtarzalny i inny DNA, którego nie można było zsekwencjonować za pomocą dostępnej wówczas technologii. Ludzki genom był pierwszym ze wszystkich kręgowców, który został zsekwencjonowany do tak bliskiego ukończenia, a od 2018 r. Diploidalne genomy ponad miliona osobników ludzkich zostały określone za pomocą sekwencjonowanie nowej generacji .
Dane te są wykorzystywane na całym świecie w naukach biomedycznych , antropologii , kryminalistyce i innych gałęziach nauki. Takie badania genomiczne doprowadziły do postępu w diagnostyce i leczeniu chorób oraz do nowych spostrzeżeń w wielu dziedzinach biologii, w tym w ewolucji człowieka .
Do 2018 roku całkowita liczba genów wzrosła do co najmniej 46 831 plus kolejne 2300 genów mikro-RNA . Badanie populacji z 2018 roku wykazało kolejne 300 milionów zasad ludzkiego genomu, których nie było w sekwencji referencyjnej. Przed uzyskaniem pełnej sekwencji genomu szacunki liczby ludzkich genów wahały się od 50 000 do 140 000 (z okazjonalnymi niejasnościami co do tego, czy te szacunki obejmowały geny niekodujące białka). Wraz z poprawą jakości sekwencji genomu i metod identyfikacji genów kodujących białka liczba rozpoznanych genów kodujących białka spadła do 19 000-20 000.
W czerwcu 2016 r. naukowcy oficjalnie ogłosili HGP-Write , plan syntezy ludzkiego genomu.
W 2022 roku konsorcjum Telomere-to-Telomere (T2T) zgłosiło pełną sekwencję ludzkiego genomu żeńskiego, wypełniając wszystkie luki w chromosomie X (2020) i 22 autosomach (maj 2021). Wcześniej niesekwencjonowane części zawierają odpowiedzi immunologicznej , które pomagają przystosować się do infekcji i przetrwać je, a także geny, które są ważne dla przewidywania odpowiedzi na lek . Ukończona sekwencja ludzkiego genomu zapewni również lepsze zrozumienie formowania się człowieka jako pojedynczego organizmu oraz tego, jak ludzie różnią się między sobą i innymi gatunkami.
Osiągnięcie kompletności
Chociaż „ukończenie” projektu ludzkiego genomu ogłoszono w 2001 r., Pozostały setki luk, a około 5–10% całkowitej sekwencji pozostało nieokreślonych. Brakujące informacje genetyczne znajdowały się głównie w powtarzalnych heterochromatycznych oraz w pobliżu centromerów i telomerów , ale także w niektórych regionach euchromatycznych kodujących geny . Pozostało 160 luk euchromatycznych w 2015 r., Kiedy określono sekwencje obejmujące kolejne 50 regionów, które wcześniej nie były sekwencjonowane. Dopiero w 2020 r. określono pierwszą prawdziwie kompletną sekwencję telomer-telomer ludzkiego chromosomu, a mianowicie chromosom X. Pierwsza kompletna sekwencja telomer-telomer ludzkiego chromosomu autosomalnego, chromosomu 8 , pojawiła się rok później. Pełny genom człowieka (bez chromosomu Y) został opublikowany w 2021 r., natomiast z chromosomem Y w styczniu 2022 r.
Organizacja molekularna i zawartość genów
Całkowita długość ludzkiego genomu referencyjnego , która nie reprezentuje sekwencji żadnego konkretnego osobnika. Genom jest zorganizowany w 22 sparowane chromosomy, zwane autosomami , oraz 23. parę chromosomów płciowych (XX) u kobiet i (XY) u mężczyzn. Genom haploidalny ma 3 054 815 472 par zasad, gdy chromosom X jest włączony, i 2 963 015 935 par zasad, gdy chromosom Y jest zastąpiony chromosomem X. Wszystkie te chromosomy są dużymi liniowymi cząsteczkami DNA zawartymi w jądrze komórkowym. Genom obejmuje również DNA mitochondrialne , stosunkowo mała kolista cząsteczka występująca w wielu kopiach w każdym mitochondrium .
Chromosomy _ |
Długość | Pary bazowe |
Wariacje _ |
Geny kodujące białka |
Pseudogeny _ |
Całkowity długi ncRNA |
Całkowity mały ncRNA |
miRNA | rRNA | snRNA | snoRNA |
Różne ncRNA |
Spinki do mankietów |
Pozycja centromeru ( Mbp ) |
Skumulowany ( %) |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 8,5 cm | 248387328 | 12151146 | 2058 | 1220 | 1200 | 496 | 134 | 66 | 221 | 145 | 192 | EBI | 125 | 7.9 |
2 | 8,3 cm | 242 696 752 | 12 945 965 | 1309 | 1023 | 1037 | 375 | 115 | 40 | 161 | 117 | 176 | EBI | 93,3 | 16.2 |
3 | 6,7 cm | 201 105 948 | 10 638 715 | 1078 | 763 | 711 | 298 | 99 | 29 | 138 | 87 | 134 | EBI | 91 | 23 |
4 | 6,5 cm | 193 574 945 | 10 165 685 | 752 | 727 | 657 | 228 | 92 | 24 | 120 | 56 | 104 | EBI | 50,4 | 29,6 |
5 | 6,2 cm | 182 045 439 | 9519995 | 876 | 721 | 844 | 235 | 83 | 25 | 106 | 61 | 119 | EBI | 48,4 | 35,8 |
6 | 5,8 cm | 172 126 628 | 9130476 | 1048 | 801 | 639 | 234 | 81 | 26 | 111 | 73 | 105 | EBI | 61 | 41,6 |
7 | 5,4 cm | 160 567 428 | 8613298 | 989 | 885 | 605 | 208 | 90 | 24 | 90 | 76 | 143 | EBI | 59,9 | 47.1 |
8 | 5,0 cm | 146 259 331 | 8221520 | 677 | 613 | 735 | 214 | 80 | 28 | 86 | 52 | 82 | EBI | 45,6 | 52 |
9 | 4,8 cm | 150 617 247 | 6590811 | 786 | 661 | 491 | 190 | 69 | 19 | 66 | 51 | 96 | EBI | 49 | 56,3 |
10 | 4,6 cm | 134 758 134 | 7 223 944 | 733 | 568 | 579 | 204 | 64 | 32 | 87 | 56 | 89 | EBI | 40.2 | 60,9 |
11 | 4,6 cm | 135 127 769 | 7535370 | 1298 | 821 | 710 | 233 | 63 | 24 | 74 | 76 | 97 | EBI | 53,7 | 65,4 |
12 | 4,5cm | 133 324 548 | 7228129 | 1034 | 617 | 848 | 227 | 72 | 27 | 106 | 62 | 115 | EBI | 35,8 | 70 |
13 | 3,9 cm | 113 566 686 | 5 082 574 | 327 | 372 | 397 | 104 | 42 | 16 | 45 | 34 | 75 | EBI | 17,9 | 73,4 |
14 | 3,6 cm | 101 161 492 | 4 865 950 | 830 | 523 | 533 | 239 | 92 | 10 | 65 | 97 | 79 | EBI | 17.6 | 76,4 |
15 | 3,5 cm | 99 753 195 | 4515076 | 613 | 510 | 639 | 250 | 78 | 13 | 63 | 136 | 93 | EBI | 19 | 79,3 |
16 | 3,1 cm | 96 330 374 | 5101702 | 873 | 465 | 799 | 187 | 52 | 32 | 53 | 58 | 51 | EBI | 36,6 | 82 |
17 | 2,8 cm | 84 276 897 | 4 614 972 | 1197 | 531 | 834 | 235 | 61 | 15 | 80 | 71 | 99 | EBI | 24 | 84,8 |
18 | 2,7 cm | 80 542 538 | 4 035 966 | 270 | 247 | 453 | 109 | 32 | 13 | 51 | 36 | 41 | EBI | 17.2 | 87,4 |
19 | 2,0 cm | 61 707 364 | 3 858 269 | 1472 | 512 | 628 | 179 | 110 | 13 | 29 | 31 | 61 | EBI | 26,5 | 89,3 |
20 | 2,1 cm | 66 210 255 | 3 439 621 | 544 | 249 | 384 | 131 | 57 | 15 | 46 | 37 | 68 | EBI | 27,5 | 91,4 |
21 | 1,6 cm | 45 090 682 | 2 049 697 | 234 | 185 | 305 | 71 | 16 | 5 | 21 | 19 | 24 | EBI | 13.2 | 92,6 |
22 | 1,7 cm | 51 324 926 | 2135311 | 488 | 324 | 357 | 78 | 31 | 5 | 23 | 23 | 62 | EBI | 14.7 | 93,8 |
X | 5,3 cm | 154 259 566 | 5 753 881 | 842 | 874 | 271 | 258 | 128 | 22 | 85 | 64 | 100 | EBI | 60,6 | 99,1 |
Y | 2,0 cm | 62.460.029 | 211643 | 71 | 388 | 71 | 30 | 15 | 7 | 17 | 3 | 8 | EBI | 10.4 | 100 |
mtDNA | 5,4 μm | 16569 | 929 | 13 | 0 | 0 | 24 | 0 | 2 | 0 | 0 | 0 | EBI | Nie dotyczy | 100 |
hapl 1-23 + X | 104 cm | 3 054 815 472 | 20328 | 14212 | 14656 | 4983 | 1741 | 523 | 1927 | 1518 | 2205 | ||||
hapl 1-23 + Y | 101 cm | 2 963 015 935 | 19557 | 13726 | 14456 | 4755 | 1628 | 508 | 1859 | 1457 | 2113 | ||||
dyplom + mt ♀
|
208,23 cm | 6109647513 | 40669 | 28424 | 29312 | 9990 | 3482 | 1048 | 3854 | 3036 | 4410 | ||||
dyplom + mt ♂
|
205,00 cm | 6 017 847 976 | 39898 | 27938 | 29112 | 9762 | 3369 | 1033 | 3786 | 2975 | 4318 |
Wariacje to unikalne różnice w sekwencji DNA, które zostały zidentyfikowane w poszczególnych sekwencjach ludzkiego genomu analizowanych przez Ensembl w grudniu 2016 r. Oczekuje się, że liczba zidentyfikowanych odmian wzrośnie w miarę sekwencjonowania i analizowania kolejnych genomów osobistych . Oprócz zawartości genów pokazanej w tej tabeli, w całym ludzkim genomie zidentyfikowano dużą liczbę niewyrażonych sekwencji funkcjonalnych (patrz poniżej). Łącza otwarte okna do referencyjnych sekwencji chromosomów w przeglądarce genomu EBI.
Małe niekodujące RNA to RNA o długości aż 200 zasad, które nie mają potencjału kodowania białek. Należą do nich: mikroRNA lub miRNA (potranskrypcyjne regulatory ekspresji genów), małe jądrowe RNA lub snRNA (składniki RNA spliceosomów ) oraz małe jądrowe RNA lub snoRNA (zaangażowane w kierowanie modyfikacjami chemicznymi innych cząsteczek RNA). Długie niekodujące RNA to cząsteczki RNA dłuższe niż 200 zasad, które nie mają potencjału kodowania białek. Należą do nich: rybosomalne RNA lub rRNA (składniki RNA rybosomów ) i wiele innych długich RNA, które biorą udział w regulacji ekspresji genów , modyfikacjach epigenetycznych nukleotydów DNA i białek histonowych oraz regulacji aktywności genów kodujących białka. Niewielkie rozbieżności między liczbą całkowitych małych ncRNA a liczbą określonych typów małych ncNRA wynikają z tego, że pierwsze wartości pochodzą z wydania Ensembl 87, a drugie z wydania Ensembl 68.
Liczba genów w ludzkim genomie nie jest do końca jasna, ponieważ funkcja wielu transkryptów pozostaje niejasna. Jest to szczególnie prawdziwe w przypadku niekodującego RNA . Liczba genów kodujących białka jest lepiej znana, ale nadal istnieje około 1400 wątpliwych genów, które mogą, ale nie muszą, kodować funkcjonalne białka, zwykle kodowane przez krótkie otwarte ramki odczytu .Genkod | zespół | Refsekw | SZACHY | |
---|---|---|---|---|
geny kodujące białka | 19901 | 20376 | 20345 | 21306 |
geny lncRNA | 15779 | 14720 | 17712 | 18484 |
antysensowny RNA | 5501 | 28 | 2694 | |
różne RNA | 2213 | 2222 | 13 899 | 4347 |
Pseudogenes | 14723 | 1740 | 15952 | |
całkowite transkrypcje | 203835 | 203903 | 154484 | 328827 |
Treść informacji
Haploidalny ludzki genom (23 chromosomy ) ma długość około 3 miliardów par zasad i zawiera około 30 000 genów . Ponieważ każdą parę zasad można zakodować za pomocą 2 bitów, daje to około 750 megabajtów danych. Pojedyncza komórka somatyczna ( diploidalna ) zawiera dwa razy tyle, czyli około 6 miliardów par zasad. Mężczyźni mają mniej niż kobiety, ponieważ chromosom Y ma około 62 milionów par zasad, podczas gdy X ma około 154 milionów. Ponieważ poszczególne genomy różnią się między sobą sekwencją o mniej niż 1%, różnice w genomie danego człowieka względem wspólnego odniesienia mogą być bezstratnie skompresowane do około 4 megabajtów.
Szybkość entropii genomu różni się znacznie między sekwencjami kodującymi i niekodującymi. Jest blisko maksimum 2 bitów na parę zasad dla sekwencji kodujących (około 45 milionów par zasad), ale mniej dla części niekodujących. Waha się od 1,5 do 1,9 bitów na parę zasad dla pojedynczego chromosomu, z wyjątkiem chromosomu Y, który ma współczynnik entropii poniżej 0,9 bitów na parę zasad.
Kodowanie a niekodowanie DNA
Zawartość ludzkiego genomu jest powszechnie podzielona na kodujące i niekodujące sekwencje DNA. Kodujące DNA definiuje się jako te sekwencje, które mogą być transkrybowane na mRNA i tłumaczone na białka podczas cyklu życia człowieka; sekwencje te zajmują tylko niewielką część genomu (<2%). Niekodujący DNA składa się z wszystkich tych sekwencji (ok. 98% genomu), które nie są używane do kodowania białek.
Niektóre niekodujące DNA zawierają geny dla cząsteczek RNA o ważnych funkcjach biologicznych ( niekodujący RNA , na przykład rybosomalny RNA i transferowy RNA ). Badanie funkcji i ewolucyjnego pochodzenia niekodującego DNA jest ważnym celem współczesnych badań nad genomem, w tym ENCODE (Encyclopedia of DNA Elements), którego celem jest zbadanie całego ludzkiego genomu przy użyciu różnorodnych narzędzi eksperymentalnych, których wyniki wskazują na aktywność molekularną. Jest jednak kwestionowane, czy sama aktywność molekularna (transkrypcja DNA na RNA) implikuje, że wytworzony RNA ma znaczącą funkcję biologiczną, ponieważ eksperymenty wykazały, że losowy niefunkcjonalny DNA będzie również w sposób powtarzalny rekrutować czynniki transkrypcyjne, co skutkuje transkrypcją do niefunkcjonalnego RNA.
Nie ma zgody co do tego, co stanowi „funkcjonalny” element genomu, ponieważ genetycy, biolodzy ewolucyjni i biolodzy molekularni stosują różne definicje i metody. Ze względu na niejednoznaczność terminologii pojawiły się różne szkoły myślenia. W definicjach ewolucyjnych „funkcjonalny” DNA, niezależnie od tego, czy jest kodujący, czy niekodujący, przyczynia się do sprawności organizmu i dlatego jest utrzymywany przez ujemną presję ewolucyjną, podczas gdy „niefunkcjonalny” DNA nie przynosi organizmowi żadnych korzyści i dlatego jest pod neutralnym ciśnieniem selekcyjnym. Ten typ DNA został opisany jako śmieciowe DNA W definicjach genetycznych „funkcjonalny” DNA jest powiązany z tym, jak segmenty DNA manifestują się według fenotypu, a „niefunkcjonalny” jest związany ze skutkami utraty funkcji w organizmie. W definicjach biochemicznych „funkcjonalny” DNA odnosi się do sekwencji DNA, które określają produkty molekularne (np. niekodujące RNA) i aktywności biochemiczne z mechanistyczną rolą w regulacji genów lub genomu (tj. sekwencje DNA, które wpływają na aktywność na poziomie komórkowym, takie jak typ komórki, stan i procesy). W literaturze nie ma zgody co do ilości funkcjonalnego DNA, ponieważ w zależności od tego, jak rozumiana jest „funkcja”, oszacowano zakresy od do 90% ludzkiego genomu to prawdopodobnie niefunkcjonalne DNA (śmieciowe DNA) do nawet 80% genomu jest prawdopodobnie funkcjonalny. Możliwe jest również, że śmieciowe DNA może w przyszłości zyskać jakąś funkcję i dlatego może odgrywać rolę w ewolucji, ale zdarza się to bardzo rzadko. Wreszcie DNA, które jest szkodliwe dla organizmu i znajduje się pod negatywną presją selekcyjną, nazywane jest śmieciowym DNA.
Ponieważ liczba niekodującego DNA znacznie przewyższa liczbę kodującego DNA, koncepcja zsekwencjonowanego genomu stała się bardziej ukierunkowaną koncepcją analityczną niż klasyczna koncepcja genu kodującego DNA.
Sekwencje kodujące (geny kodujące białka)
Sekwencje kodujące białka reprezentują najszerzej badany i najlepiej poznany składnik ludzkiego genomu. Sekwencje te ostatecznie prowadzą do produkcji wszystkich ludzkich białek , chociaż kilka procesów biologicznych (np. rearanżacje DNA i alternatywny splicing pre-mRNA ) może prowadzić do produkcji znacznie większej liczby unikalnych białek niż liczba genów kodujących białka. Pełna modułowa zdolność genomu do kodowania białek jest zawarta w egzomie i składa się z sekwencji DNA kodowanych przez eksony które można przetłumaczyć na białka. Ze względu na swoje znaczenie biologiczne oraz fakt, że stanowi mniej niż 2% genomu, sekwencjonowanie egzomu było pierwszym ważnym krokiem milowym w projekcie Human Genome Project.
Liczba genów kodujących białka . Około 20 000 ludzkich białek zostało opisanych w bazach danych, takich jak Uniprot . Historycznie rzecz biorąc, szacunki dotyczące liczby genów białek były bardzo zróżnicowane, sięgając do 2 000 000 pod koniec lat 60., ale kilku badaczy wskazało na początku lat 70 . funkcjonalnych loci (obejmuje to geny kodujące białka i funkcjonalne geny niekodujące). Liczba ludzkich genów kodujących białka nie jest znacznie większa niż w przypadku wielu mniej złożonych organizmów, takich jak glisty i muszki owocówki . Ta różnica może wynikać z szerokiego zastosowania alternatywnego składania pre-mRNA u ludzi, co daje możliwość budowy bardzo dużej liczby białek modularnych poprzez selektywne wbudowywanie eksonów.
Zdolność kodowania białek na chromosom . Geny kodujące białka są rozmieszczone nierównomiernie na chromosomach, od kilkudziesięciu do ponad 2000, ze szczególnie dużą gęstością genów w chromosomach 1, 11 i 19. Każdy chromosom zawiera różne regiony bogate w geny i ubogie w geny, które może być skorelowany z prążkami chromosomów i zawartością GC . Znaczenie tych nielosowych wzorców gęstości genów nie jest dobrze poznane.
Rozmiar genów kodujących białka . Rozmiar genów kodujących białka w ludzkim genomie wykazuje ogromną zmienność. Na przykład gen histonu H1a (HIST1HIA) jest stosunkowo mały i prosty, pozbawiony intronów i kodujący mRNA o długości 781 nukleotydów, który wytwarza białko o długości 215 aminokwasów z otwartej ramki odczytu o długości 648 nukleotydów . Dystrofina (DMD) była największym genem kodującym białka w ludzkim genomie referencyjnym z 2001 r., obejmującym łącznie 2,2 miliona nukleotydów, podczas gdy nowsza systematyczna metaanaliza zaktualizowanych danych dotyczących ludzkiego genomu zidentyfikowała jeszcze większy gen kodujący białka, RBFOX1 (białko wiążące RNA, fox-1 homolog 1), obejmujący łącznie 2,47 miliona nukleotydów. Tytyna (TTN) ma najdłuższą sekwencję kodującą (114 414 nukleotydów), największą liczbę eksonów (363) i najdłuższy pojedynczy ekson (17 106 nukleotydów). Jak oszacowano na podstawie wyselekcjonowanego zestawu genów kodujących białka w całym genomie, mediana wielkości wynosi 26 288 nukleotydów (średnia = 66 577), mediana wielkości eksonu 133 nukleotydy (średnia = 309), mediana liczby egzonów 8 ( średnia = 11), a mediana kodowanego białka ma długość 425 aminokwasów (średnia = 553).
Białko | Chrom | Gen | Długość | eksony | Długość egzonu | Długość intronu | Alternatywne łączenie |
---|---|---|---|---|---|---|---|
Białko podatności na raka piersi typu 2 | 13 | BRCA2 | 83736 | 27 | 11386 | 72350 | Tak |
Przezbłonowy regulator przewodnictwa mukowiscydozy | 7 | CFTR | 202881 | 27 | 4440 | 198441 | Tak |
Cytochrom b | MT | MTCYB | 1140 | 1 | 1140 | 0 | NIE |
Dystrofina | X | DMD | 2220381 | 79 | 10500 | 2 209 881 | Tak |
Dehydrogenaza gliceraldehydo-3-fosforanowa | 12 | GAPDH | 4444 | 9 | 1425 | 3019 | Tak |
Podjednostka beta hemoglobiny | 11 | HBB | 1605 | 3 | 626 | 979 | NIE |
Histon H1A | 6 | HIST1H1A | 781 | 1 | 781 | 0 | NIE |
Titin | 2 | TTN | 281434 | 364 | 104301 | 177133 | Tak |
Niekodujące DNA (ncDNA)
Niekodujący DNA definiuje się jako wszystkie sekwencje DNA w genomie, które nie znajdują się w eksonach kodujących białka, a zatem nigdy nie są reprezentowane w sekwencji aminokwasowej białek ulegających ekspresji. Zgodnie z tą definicją ponad 98% ludzkich genomów składa się z ncDNA.
Zidentyfikowano wiele klas niekodującego DNA, w tym geny niekodującego RNA (np. tRNA i rRNA), pseudogeny, introny, nieulegające translacji regiony mRNA, regulatorowe sekwencje DNA, powtarzalne sekwencje DNA oraz sekwencje związane z ruchomymi elementami genetycznymi.
Liczne sekwencje zawarte w genach są również definiowane jako niekodujące DNA. Należą do nich geny niekodującego RNA (np. tRNA, rRNA) oraz nieulegające translacji składniki genów kodujących białka (np. introny oraz nieulegające translacji regiony 5' i 3' mRNA).
Sekwencje kodujące białka (konkretnie egzony kodujące ) stanowią mniej niż 1,5% ludzkiego genomu. Ponadto około 26% ludzkiego genomu to introny . Oprócz genów (eksonów i intronów) oraz znanych sekwencji regulatorowych (8–20%), ludzki genom zawiera regiony niekodującego DNA. Dokładna ilość niekodującego DNA, który odgrywa rolę w fizjologii komórki, była przedmiotem gorących dyskusji. Niedawna analiza przeprowadzona w ramach ENCODE wskazuje, że 80% całego ludzkiego genomu podlega transkrypcji, wiąże się z białkami regulatorowymi lub jest związane z inną aktywnością biochemiczną.
Pozostaje jednak kontrowersyjne, czy cała ta aktywność biochemiczna przyczynia się do fizjologii komórki, czy też znaczna jej część jest wynikiem szumu transkrypcyjnego i biochemicznego, który musi być aktywnie filtrowany przez organizm. Z wyjątkiem sekwencji kodujących białka, intronów i regionów regulatorowych, większość niekodującego DNA składa się z: Wiele sekwencji DNA, które nie odgrywają roli w ekspresji genów, pełni ważne funkcje biologiczne. Porównawcze badania genomiczne wskazują, że około 5% genomu zawiera sekwencje niekodującego DNA, które są wysoce konserwatywne , czasami w skalach czasowych reprezentujących setki milionów lat, co sugeruje, że te niekodujące regiony znajdują się pod silną presją ewolucyjną i doborem oczyszczającym .
Wiele z tych sekwencji reguluje strukturę chromosomów poprzez ograniczanie regionów tworzenia heterochromatyny i regulację cech strukturalnych chromosomów, takich jak telomery i centromery . Inne regiony niekodujące służą jako początek replikacji DNA . Wreszcie kilka regionów ulega transkrypcji do funkcjonalnego niekodującego RNA, które reguluje ekspresję genów kodujących białka (na przykład), translację i stabilność mRNA (patrz miRNA ), strukturę chromatyny (w tym histon na przykład modyfikacje), metylację DNA (na przykład), rekombinację DNA (na przykład) i regulację krzyżową innych niekodujących RNA (na przykład). Jest również prawdopodobne, że wiele transkrybowanych regionów niekodujących nie pełni żadnej roli i że ta transkrypcja jest produktem niespecyficznej polimerazy RNA .
Pseudogenes
Pseudogeny to nieaktywne kopie genów kodujących białka, często generowane przez duplikację genów , które stały się niefunkcjonalne w wyniku nagromadzenia mutacji inaktywujących. Liczba pseudogenów w ludzkim genomie jest rzędu 13 000, aw niektórych chromosomach jest prawie taka sama jak liczba funkcjonalnych genów kodujących białka. Duplikacja genów jest głównym mechanizmem generowania nowego materiału genetycznego podczas ewolucji molekularnej .
Na przykład rodzina genów receptorów węchowych jest jednym z najlepiej udokumentowanych przykładów pseudogenów w ludzkim genomie. Ponad 60 procent genów z tej rodziny to niefunkcjonalne pseudogeny u ludzi. Dla porównania, tylko 20 procent genów w rodzinie genów mysich receptorów węchowych to pseudogeny. Badania sugerują, że jest to cecha specyficzna dla gatunku, ponieważ wszystkie najbardziej spokrewnione naczelne mają proporcjonalnie mniej pseudogenów. To odkrycie genetyczne pomaga wyjaśnić mniej wyostrzony zmysł węchu u ludzi w porównaniu z innymi ssakami.
Geny niekodującego RNA (ncRNA)
Niekodujące cząsteczki RNA odgrywają wiele istotnych ról w komórkach, zwłaszcza w wielu reakcjach syntezy białek i przetwarzania RNA . Niekodujący RNA obejmuje tRNA , rybosomalny RNA, mikroRNA , snRNA i inne niekodujące geny RNA, w tym około 60 000 długich niekodujących RNA (lncRNA). Chociaż liczba zgłaszanych genów lncRNA wciąż rośnie, a dokładna liczba w ludzkim genomie nie została jeszcze zdefiniowana, wiele z nich uważa się za niefunkcjonalne.
Wiele ncRNA to krytyczne elementy regulacji i ekspresji genów. Niekodujący RNA ma również udział w epigenetyce, transkrypcji, splicingu RNA i maszynerii translacyjnej. Rola RNA w regulacji genetycznej i chorobach oferuje nowy potencjalny poziom niezbadanej złożoności genomowej.
Introny i nieulegające translacji regiony mRNA
Oprócz cząsteczek ncRNA, które są kodowane przez oddzielne geny, początkowe transkrypty genów kodujących białka zwykle zawierają rozległe sekwencje niekodujące, w postaci intronów, regionów nieulegających translacji 5' (5'-UTR) i regionów nieulegających translacji 3' (3'-UTR). W większości genów kodujących białka ludzkiego genomu długość sekwencji intronów jest od 10 do 100 razy większa niż długość sekwencji eksonów.
Regulacyjne sekwencje DNA
Ludzki genom ma wiele różnych sekwencji regulatorowych , które są kluczowe dla kontrolowania ekspresji genów . Konserwatywne szacunki wskazują, że sekwencje te stanowią 8% genomu, jednak ekstrapolacje z ENCODE wskazują, że 20-40% genomu to sekwencja regulatorowa genów. Niektóre typy niekodującego DNA to genetyczne „przełączniki”, które nie kodują białek, ale regulują, kiedy i gdzie geny ulegają ekspresji (tzw. wzmacniacze ).
Sekwencje regulacyjne są znane od późnych lat 60. XX wieku. Pierwsza identyfikacja sekwencji regulatorowych w ludzkim genomie opierała się na technologii rekombinacji DNA. Później, wraz z pojawieniem się sekwencjonowania genomowego, identyfikację tych sekwencji można było wywnioskować na podstawie ewolucyjnej ochrony. gałąź ewolucyjna między naczelnymi a myszami miała miejsce 70–90 milionów lat temu. Tak więc komputerowe porównania sekwencji genów, które identyfikują konserwatywne sekwencje niekodujące, będą wskazówką ich znaczenia w obowiązkach, takich jak regulacja genów.
Inne genomy zostały zsekwencjonowane w tym samym celu, aby wspomóc metody ukierunkowane na ochronę, na przykład genom rozdymki . Jednak sekwencje regulatorowe znikają i ponownie ewoluują podczas ewolucji w szybkim tempie.
Od 2012 roku wysiłki przesunęły się w kierunku znalezienia interakcji między DNA a białkami regulatorowymi za pomocą techniki ChIP-Seq lub luk, w których DNA nie jest upakowane przez histony ( miejsca nadwrażliwe na DNazę ), z których oba wskazują, gdzie są aktywne sekwencje regulatorowe w badany typ komórek.
Powtarzające się sekwencje DNA
Powtarzające się sekwencje DNA stanowią około 50% ludzkiego genomu.
Około 8% ludzkiego genomu składa się z tandemowych macierzy DNA lub tandemowych powtórzeń, sekwencji powtórzeń o niskiej złożoności, które mają wiele przylegających kopii (np. „CAGCAGCAG…”). Sekwencje tandemowe mogą mieć różne długości, od dwóch do kilkudziesięciu nukleotydów. Sekwencje te są bardzo zmienne, nawet wśród blisko spokrewnionych osób, dlatego są wykorzystywane do genealogicznych testów DNA i analizy kryminalistycznej DNA .
Powtarzające się sekwencje zawierające mniej niż dziesięć nukleotydów (np. powtórzenie dinukleotydu (AC) n ) nazywane są sekwencjami mikrosatelitarnymi. Wśród sekwencji mikrosatelitarnych szczególne znaczenie mają powtórzenia trinukleotydowe, które czasami występują w regionach kodujących geny dla białek i mogą prowadzić do zaburzeń genetycznych. Na przykład choroba Huntingtona wynika z ekspansji powtórzeń trinukleotydów (CAG) n w obrębie genu Huntingtona na ludzkim chromosomie 4. Telomery (końce liniowych chromosomów) kończą się mikrosatelitarnym powtórzeniem heksanukleotydowym sekwencji (TTAGGG) n .
Tandemowe powtórzenia dłuższych sekwencji (tablice powtarzających się sekwencji o długości 10–60 nukleotydów) nazywane są minisatelitami .
Ruchome elementy genetyczne (transpozony) i ich relikty
Transponowalne elementy genetyczne , sekwencje DNA, które mogą się replikować i wstawiać swoje kopie w innych miejscach w genomie gospodarza, są obfitym składnikiem ludzkiego genomu. Najliczniejsza linia transpozonów, Alu , ma około 50 000 aktywnych kopii i może być wstawiona do regionów wewnątrzgenowych i międzygenowych. Jedna inna linia, LINE-1, ma około 100 aktywnych kopii na genom (liczba różni się w zależności od osoby). Wraz z niefunkcjonalnymi reliktami starych transpozonów stanowią one ponad połowę całkowitego ludzkiego DNA. Czasami nazywane „skaczącymi genami”, transpozony odegrały główną rolę w rzeźbieniu ludzkiego genomu. Niektóre z tych sekwencji reprezentują endogenne retrowirusy , kopie DNA sekwencji wirusowych, które zostały trwale zintegrowane z genomem i są obecnie przekazywane kolejnym pokoleniom.
Ruchome elementy ludzkiego genomu można podzielić na retrotranspozony LTR (8,3% całego genomu), SINE (13,1% całego genomu), w tym elementy Alu , LINE (20,4% całego genomu), SVA (SINE- VNTR -Alu) i Transpozony DNA klasy II (2,9% całego genomu).
Zmienność genomu u ludzi
Ludzki genom referencyjny
Z wyjątkiem bliźniąt jednojajowych wszyscy ludzie wykazują znaczne różnice w sekwencjach genomowego DNA. Ludzki genom referencyjny (HRG) jest używany jako standardowa sekwencja referencyjna.
Istnieje kilka ważnych punktów dotyczących ludzkiego genomu odniesienia:
- HRG jest sekwencją haploidalną. Każdy chromosom jest reprezentowany raz.
- HRG jest złożoną sekwencją i nie odpowiada żadnemu rzeczywistemu osobnikowi ludzkiemu.
- HRG jest okresowo aktualizowana w celu poprawienia błędów, niejasności i nieznanych „luk”.
- HRG w żaden sposób nie reprezentuje „idealnego” ani „doskonałego” człowieka. Jest to po prostu znormalizowana reprezentacja lub model używany do celów porównawczych.
Genome Reference Consortium jest odpowiedzialne za aktualizację HRG. Wersja 38 została wydana w grudniu 2013 roku.
Pomiar zmienności genetycznej człowieka
Większość badań zmienności genetycznej człowieka koncentrowała się na polimorfizmach pojedynczych nukleotydów (SNP), które są substytucjami w poszczególnych zasadach wzdłuż chromosomu. Większość analiz szacuje, że SNP występują średnio 1 na 1000 par zasad w euchromatycznym ludzkim genomie, chociaż nie występują one w jednolitej gęstości. Tak wynika z popularnego stwierdzenia, że „wszyscy, niezależnie od rasy , jesteśmy genetycznie w 99,9% tacy sami”, chociaż większość genetyków uznałoby to za pewne. Na przykład obecnie uważa się, że znacznie większa część genomu jest zaangażowana w zmienność liczby kopii . Międzynarodowy projekt HapMap podejmuje wspólne wysiłki na dużą skalę w celu skatalogowania odmian SNP w ludzkim genomie .
Loci genomowe i długość niektórych typów małych powtarzalnych sekwencji są bardzo zmienne w zależności od osoby, co jest podstawą technologii pobierania odcisków palców DNA i testowania ojcostwa DNA . Uważa się również, że heterochromatyczne części ludzkiego genomu, które łącznie mają kilkaset milionów par zasad, są dość zmienne w obrębie populacji ludzkiej (są tak powtarzalne i tak długie, że nie można ich dokładnie zsekwencjonować przy użyciu obecnej technologii) . Regiony te zawierają niewiele genów i nie jest jasne, czy mają jakikolwiek znaczący fenotyp efekt wynika z typowej zmienności powtórzeń lub heterochromatyny.
Większość poważnych mutacji genomowych w komórkach rozrodczych gamet prawdopodobnie skutkuje zarodkami niezdolnymi do życia; jednak wiele chorób ludzkich jest związanych z nieprawidłowościami genomowymi na dużą skalę. Zespół Downa , zespół Turnera i wiele innych chorób wynika z niedysjunkcji całych chromosomów. Komórki nowotworowe często mają aneuploidię chromosomów i ramion chromosomów, chociaż nie ustalono związku przyczynowo-skutkowego między aneuploidią a rakiem.
Mapowanie zmienności genomu człowieka
Podczas gdy sekwencja genomu wymienia kolejność każdej zasady DNA w genomie, mapa genomu identyfikuje punkty orientacyjne. Mapa genomu jest mniej szczegółowa niż sekwencja genomu i pomaga w poruszaniu się po genomie.
Przykładem mapy wariacyjnej jest HapMap opracowywana przez International HapMap Project . HapMap to haplotypów ludzkiego genomu, „która będzie opisywać typowe wzorce zmienności sekwencji ludzkiego DNA”. Kataloguje wzorce zmian w genomie na małą skalę, które obejmują pojedyncze litery lub zasady DNA.
r. naukowcy opublikowali pierwszą opartą na sekwencjach mapę zmienności strukturalnej ludzkiego genomu w czasopiśmie Nature . Wielkoskalowe zmienności strukturalne to różnice w genomie między ludźmi, które wahają się od kilku tysięcy do kilku milionów zasad DNA ; niektóre to zyski lub straty odcinków sekwencji genomu, a inne pojawiają się jako rearanżacje odcinków sekwencji. Wariacje te obejmują różnice w liczbie posiadanych przez osobników kopii danego genu, delecje, translokacje i inwersje.
Zmienność strukturalna
Zmienność strukturalna odnosi się do wariantów genetycznych, które wpływają na większe segmenty ludzkiego genomu, w przeciwieństwie do mutacji punktowych . Często warianty strukturalne (SV) definiuje się jako warianty o długości 50 par zasad (pz) lub większej, takie jak delecje, duplikacje, insercje, inwersje i inne przegrupowania. Około 90% wariantów strukturalnych to delecje niekodujące, ale większość osobników ma ponad tysiąc takich delecji; wielkość delecji waha się od kilkudziesięciu par zasad do dziesiątek tysięcy pz. Osoby posiadają średnio ~3 rzadkie warianty strukturalne, które zmieniają regiony kodujące, np. usuwają eksony . Około 2% osób ma bardzo rzadkie warianty strukturalne w skali megazasad, zwłaszcza przegrupowania. Oznacza to, że w chromosomie mogą być odwrócone miliony par zasad; ultrarzadkie oznacza, że występują tylko u osobników lub członków ich rodzin, a zatem pojawiły się bardzo niedawno.
Częstotliwość SNP w całym ludzkim genomie
Polimorfizmy pojedynczego nukleotydu (SNP) nie występują jednorodnie w ludzkim genomie. W rzeczywistości istnieje ogromne zróżnicowanie SNP między genami, odzwierciedlające różne presje selekcyjne na każdy gen, a także różne wskaźniki mutacji i rekombinacji w całym genomie. Jednak badania nad SNP są ukierunkowane na regiony kodujące, jest mało prawdopodobne, aby dane z nich wygenerowane odzwierciedlały ogólną dystrybucję SNP w całym genomie. Dlatego Konsorcjum SNP protokół został zaprojektowany w celu identyfikacji SNP bez uprzedzeń w stosunku do regionów kodujących, a 100 000 SNP Konsorcjum generalnie odzwierciedla różnorodność sekwencji w ludzkich chromosomach. Konsorcjum SNP ma na celu zwiększenie liczby SNP zidentyfikowanych w całym genomie do 300 000 do końca pierwszego kwartału 2001 roku.
Zmiany w sekwencji niekodującej i zmiany synonimiczne w sekwencji kodującej są generalnie bardziej powszechne niż zmiany niesynonimiczne, odzwierciedlając większą różnorodność zmniejszającą ciśnienie selekcyjne w pozycjach dyktujących tożsamość aminokwasów. Zmiany przejściowe są częstsze niż transwersje, przy czym dinukleotydy CpG wykazują najwyższy wskaźnik mutacji, prawdopodobnie z powodu deaminacji.
Genomy osobowe
Osobista sekwencja genomu to (prawie) kompletna sekwencja chemicznych par zasad, które składają się na DNA pojedynczej osoby. Ponieważ terapie medyczne mają różny wpływ na różnych ludzi ze względu na różnice genetyczne, takie jak polimorfizm pojedynczego nukleotydu (SNP), analiza genomów osobistych może prowadzić do spersonalizowanego leczenia opartego na poszczególnych genotypach.
Pierwszą sekwencją genomu osobistego, którą określono, była sekwencja genomu Craiga Ventera w 2007 r. Genomy osobiste nie zostały zsekwencjonowane w ramach publicznego projektu genomu ludzkiego w celu ochrony tożsamości ochotników, którzy dostarczyli próbki DNA. Ta sekwencja została wyprowadzona z DNA kilku ochotników z zróżnicowanej populacji. Jednak na początku prowadzonej przez Ventera firmy Celera Genomics W ramach wysiłków związanych z sekwencjonowaniem genomu podjęto decyzję o przejściu z sekwencjonowania próbki złożonej na użycie DNA pojedynczego osobnika, który później okazał się być samym Venterem. Tak więc sekwencja ludzkiego genomu Celera opublikowana w 2000 roku była w dużej mierze sekwencją jednego człowieka. Późniejsze zastąpienie wczesnych danych pochodzących z kompozytów i określenie sekwencji diploidalnej, reprezentującej oba zestawy chromosomów , zamiast pierwotnie zgłoszonej sekwencji haploidalnej, pozwoliło na uwolnienie pierwszego osobistego genomu. W kwietniu 2008 roku James Watson również została zakończona. W 2009 roku Stephen Quake opublikował własną sekwencję genomu pochodzącą z sekwencera własnego projektu, Heliscope. Zespół ze Stanford kierowany przez Euana Ashleya opublikował ramy medycznej interpretacji ludzkich genomów zaimplementowanych w genomie Quake'a i po raz pierwszy podjął decyzje medyczne oparte na całym genomie. Zespół ten dalej rozszerzył podejście do rodziny West, pierwszej rodziny zsekwencjonowanej w ramach programu osobistego sekwencjonowania genomu firmy Illumina. Od tego czasu opublikowano setki osobistych sekwencji genomu, w tym sekwencje Desmonda Tutu i Paleo-Eskimosa. . W 2012 roku upubliczniono całe sekwencje genomów dwóch trio rodzin spośród 1092 genomów. W listopadzie 2013 r. hiszpańska rodzina udostępniła publicznie cztery osobiste zestawy danych egzomu (około 1% genomu) na licencji domeny publicznej Creative Commons . Projekt Personal Genome Project (rozpoczęty w 2005 r.) jest jednym z nielicznych, które udostępniają publicznie zarówno sekwencje genomu, jak i odpowiadające im fenotypy medyczne.
Sekwencjonowanie poszczególnych genomów ujawniło kolejne poziomy złożoności genetycznej, których wcześniej nie doceniano. Genomika osobista pomogła ujawnić znaczny poziom różnorodności ludzkiego genomu, przypisywany nie tylko SNP, ale także zmianom strukturalnym. Jednak zastosowanie takiej wiedzy w leczeniu chorób iw medycynie jest dopiero na samym początku. Sekwencjonowanie egzomu staje się coraz bardziej popularne jako narzędzie pomocne w diagnozowaniu chorób genetycznych, ponieważ egzom stanowi tylko 1% sekwencji genomowej, ale odpowiada za około 85% mutacji, które znacząco przyczyniają się do choroby.
Ludzkie nokauty
U ludzi nokauty genów występują naturalnie jako nokauty genów heterozygotycznych lub homozygotycznych z utratą funkcji . Te nokauty są często trudne do rozróżnienia, zwłaszcza w heterogenicznych środowiskach genetycznych. Są również trudne do znalezienia, ponieważ występują w niskich częstotliwościach.
Populacje o wysokim wskaźniku pokrewieństwa , takie jak kraje o wysokim wskaźniku małżeństw między kuzynami, wykazują najwyższe częstotliwości nokautów homozygotycznych genów. Takie populacje obejmują populacje Pakistanu, Islandii i Amiszów. Te populacje o wysokim poziomie pokrewieństwa rodzicielskiego były przedmiotem badań nad nokautem na ludziach, które pomogły określić funkcję określonych genów u ludzi. Rozróżniając określone nokauty, naukowcy są w stanie wykorzystać analizy fenotypowe tych osób, aby pomóc scharakteryzować gen, który został wyeliminowany.
Nokaut w określonych genach może powodować choroby genetyczne, potencjalnie mieć korzystne skutki, a nawet skutkować całkowitym brakiem efektu fenotypowego. Jednak określenie efektu fenotypowego nokautu u ludzi może być trudne. Wyzwania związane z charakteryzowaniem i kliniczną interpretacją nokautów obejmują trudności w wywoływaniu wariantów DNA, określanie zakłócenia funkcji białka (adnotacje) oraz rozważanie wpływu mozaicyzmu na fenotyp.
Jednym z głównych badań, w których badano nokauty u ludzi, jest badanie Pakistan Risk of Myocardial Infarction. Stwierdzono, że osoby posiadające nokaut heterozygotycznego genu utraty funkcji dla APOC3 miały niższe trójglicerydy we krwi po spożyciu posiłku wysokotłuszczowego w porównaniu z osobami bez mutacji. Jednak osoby posiadające homozygotyczne nokauty genu utraty funkcji genu APOC3 wykazywały najniższy poziom trójglicerydów we krwi po teście obciążenia tłuszczem, ponieważ nie wytwarzają funkcjonalnego białka APOC3.
Zaburzenia genetyczne człowieka
Większość aspektów biologii człowieka obejmuje zarówno czynniki genetyczne (odziedziczone), jak i niegenetyczne (środowiskowe). Niektóre odziedziczone zróżnicowanie wpływa na aspekty naszej biologii, które nie mają charakteru medycznego (wzrost, kolor oczu, zdolność odczuwania smaku lub wąchania niektórych związków itp.). Co więcej, niektóre zaburzenia genetyczne powodują chorobę tylko w połączeniu z odpowiednimi czynnikami środowiskowymi (takimi jak dieta). Z tymi zastrzeżeniami zaburzenia genetyczne można opisać jako klinicznie zdefiniowane choroby spowodowane zmiennością sekwencji genomowego DNA. W najprostszych przypadkach zaburzenie może być związane ze zmiennością pojedynczego genu. Na przykład mukowiscydoza jest spowodowana mutacjami w genie CFTR i jest najpowszechniejszym zaburzeniem recesywnym w populacjach kaukaskich z ponad 1300 znanymi różnymi mutacjami.
Choroby powodujące mutacje w określonych genach są zwykle ciężkie pod względem funkcji genów i na szczęście są rzadkie, dlatego zaburzenia genetyczne są podobnie rzadkie indywidualnie. Ponieważ jednak istnieje wiele genów, które mogą zmieniać się, powodując zaburzenia genetyczne, łącznie stanowią one istotny składnik znanych schorzeń, zwłaszcza w medycynie pediatrycznej. Zaburzenia genetyczne scharakteryzowane molekularnie to takie, dla których zidentyfikowano gen przyczynowy. OMIM znajduje się około 2200 takich zaburzeń .
Badania zaburzeń genetycznych są często przeprowadzane za pomocą badań rodzinnych. W niektórych przypadkach stosuje się podejście populacyjne, szczególnie w przypadku tak zwanych populacji założycielskich, takich jak te w Finlandii, francusko-kanadyjskiej, Utah, na Sardynii itp. Diagnozę i leczenie zaburzeń genetycznych zwykle przeprowadza genetyk - lekarz przeszkolony w zakresie genetyki klinicznej/medycznej. Wyniki projektu Human Genome Project prawdopodobnie zwiększą dostępność testów genetycznych w kierunku zaburzeń genetycznych i ostatecznie poprawią leczenie. Rodzice mogą być badani pod kątem chorób dziedzicznych i udzielali porad na temat konsekwencji, prawdopodobieństwa dziedziczenia oraz sposobów uniknięcia lub złagodzenia tego zjawiska u ich potomstwa.
Istnieje wiele różnych rodzajów zmienności sekwencji DNA, od kompletnych dodatkowych lub brakujących chromosomów do zmian pojedynczych nukleotydów. Ogólnie przyjmuje się, że wiele naturalnie występujących zmienności genetycznych w populacjach ludzkich jest fenotypowo neutralnych, tj. ma niewielki lub żaden wykrywalny wpływ na fizjologię osobnika (chociaż mogą istnieć ułamkowe różnice w przystosowaniu określone w ewolucyjnych ramach czasowych). Zaburzenia genetyczne mogą być spowodowane dowolnymi lub wszystkimi znanymi typami zmienności sekwencji. Aby molekularnie scharakteryzować nowe zaburzenie genetyczne, konieczne jest ustalenie związku przyczynowego między określonym wariantem sekwencji genomowej a badaną chorobą kliniczną. Takie badania stanowią domenę genetyki molekularnej człowieka.
Wraz z pojawieniem się Human Genome i International HapMap Project , stało się możliwe zbadanie subtelnych wpływów genetycznych na wiele powszechnych chorób, takich jak cukrzyca, astma, migrena, schizofrenia itp. Chociaż dokonano pewnych powiązań przyczynowych między wariantami sekwencji genomowej w określonych genów i niektórych z tych chorób, często szeroko nagłaśnianych w mediach ogólnych, zazwyczaj nie uważa się ich za zaburzenia genetyczne per se , ponieważ ich przyczyny są złożone i obejmują wiele różnych czynników genetycznych i środowiskowych. W związku z tym w poszczególnych przypadkach może dojść do niezgody, czy określony stan chorobowy należy nazwać zaburzeniem genetycznym.
Dodatkowe wymienione zaburzenia genetyczne to zespół Kallmana i zespół Pfeiffera (gen FGFR1), dystrofia rogówki Fuchsa (gen TCF4), choroba Hirschsprunga (geny RET i FECH), zespół Bardeta-Biedla 1 (geny CCDC28B i BBS1), zespół Bardeta-Biedla 10 (gen BBS10) i twarzowo-łopatkowo-ramiennej dystrofii mięśniowej typu 2 (geny D4Z4 i SMCHD1).
Sekwencjonowanie genomu jest teraz w stanie zawęzić genom do określonych lokalizacji, aby dokładniej znaleźć mutacje, które spowodują zaburzenie genetyczne. Warianty liczby kopii (CNV) i warianty pojedynczych nukleotydów (SNV) można również wykryć w tym samym czasie, co sekwencjonowanie genomu przy użyciu nowszych dostępnych procedur sekwencjonowania, zwanych sekwencjonowaniem nowej generacji (NGS). To analizuje tylko niewielką część genomu, około 1-2%. Wyniki tego sekwencjonowania mogą być wykorzystane do klinicznej diagnozy choroby genetycznej, w tym zespołu Ushera , choroby siatkówki, upośledzenia słuchu, cukrzycy, padaczki, Choroba Leigha , dziedziczne nowotwory, choroby nerwowo-mięśniowe, pierwotne niedobory odporności, ciężki złożony niedobór odporności (SCID) i choroby mitochondriów. NGS można również wykorzystać do identyfikacji nosicieli chorób przed poczęciem. Choroby, które można wykryć w tym sekwencjonowaniu, obejmują chorobę Tay-Sachsa , zespół Blooma , chorobę Gauchera , chorobę Canavan , rodzinną dysautonomię , mukowiscydozę, rdzeniowy zanik mięśni i zespół łamliwego chromosomu X . Sekwencjonowanie następnego genomu można zawęzić, aby konkretnie szukać chorób bardziej rozpowszechnionych w niektórych populacjach etnicznych.
Nieład | Rozpowszechnienie | Zaangażowany chromosom lub gen |
---|---|---|
Warunki chromosomalne | ||
Zespół Downa | 1:600 | Chromosom 21 |
Zespół Klinefeltera | 1:500–1000 mężczyzn | Dodatkowy chromosom X |
zespół Turnera | 1:2000 kobiet | Utrata chromosomu X |
Anemia sierpowata | 1 na 50 urodzeń w niektórych częściach Afryki; rzadsze gdzie indziej | β-globina (na chromosomie 11) |
Zespół Blooma | 1:48000 Żydów aszkenazyjskich | BLM |
Raki | ||
piersi / jajnika (podatność) | ~ 5% przypadków tych typów raka | BRCA1, BRCA2 |
FAP (dziedziczna niezwiązana z polipowatością coli) | 1:3500 | APC |
syndrom Lyncha | 5–10% wszystkich przypadków raka jelita grubego | MLH1, MSH2, MSH6, PMS2 |
niedokrwistość Fanconiego | 1:130000 urodzeń | FANCC |
Stany neurologiczne | ||
Choroba Huntingtona | 1:20000 | polowanie |
Choroba Alzheimera - wczesny początek | 1:2500 | PS1 , PS2 , aplikacja |
Tay-Sachs | 1:3600 urodzeń u Żydów aszkenazyjskich | gen HEXA (na chromosomie 15) |
choroba Canavana | 2,5% pochodzenia żydowskiego z Europy Wschodniej | ASPA (na chromosomie 17) |
Rodzinna dysautonomia | 600 znanych przypadków na całym świecie od czasu odkrycia | Gen IKBKAP (na chromosomie 9) |
Zespół łamliwego chromosomu X | 1,4:10000 u mężczyzn, 0,9:10000 u kobiet | Gen FMR1 (na chromosomie X) |
Mukolipidoza typu IV | 1:90 do 1:100 u Żydów aszkenazyjskich | MCOLN1 |
Inne warunki | ||
Mukowiscydoza | 1:2500 | CFTR |
Dystrofia mięśniowa Duchenne'a | 1:3500 chłopców | Dystrofina |
Dystrofia mięśniowa Beckera | 1,5-6:100000 samców | DMD |
Talasemia beta | 1:100000 | HBB |
Wrodzony przerost nadnerczy | 1:280 u rdzennych Amerykanów i Eskimosów Yupik 1:15000 u rasy amerykańskiej rasy kaukaskiej |
CYP21A2 |
Choroba spichrzeniowa glikogenu typu I | 1:100000 urodzeń w Ameryce | G6PC |
Choroba syropu klonowego | 1:180000 w USA 1:176 w społecznościach mennonitów/amiszów 1:250000 w Austrii |
BCKDHA, BCKDHB, DBT, DLD |
Choroba Niemanna-Picka, związana z SMPD1 | 1200 przypadków na całym świecie | SMPD1 |
Zespół Ushera | 1:23000 w USA 1:28000 w Norwegii 1:12500 w Niemczech |
CDH23, CLRN1, DFNB31, GPR98, MYO7A, PCDH15, USH1C, USH1G, USH2A |
Ewolucja
−10 —
–
−9 —
–
−8 —
–
−7 —
–
−6 —
–
−5 —
–
−4 —
–
−3 —
–
−2 —
–
−1 —
–
0 —
|
|
|
||||||||||||||||||
( milion lat temu ) |
Porównawcze badania genomiczne genomów ssaków sugerują, że około 5% ludzkiego genomu zostało zachowane przez ewolucję od rozbieżności istniejących linii około 200 milionów lat temu, zawierających ogromną większość genów. Opublikowany szympansa różni się od genomu ludzkiego o 1,23% w bezpośrednich porównaniach sekwencji. Około 20% tej liczby przypada na zmienność w obrębie każdego gatunku, pozostawiając tylko ~1,06% spójnej rozbieżności sekwencji między ludźmi i szympansami we wspólnych genach. Ten nukleotyd przez różnicę nukleotydów jest jednak przyćmiony przez część każdego genomu, która nie jest wspólna, w tym około 6% funkcjonalnych genów, które są unikalne dla ludzi lub szympansów.
Innymi słowy, znaczne obserwowalne różnice między ludźmi a szympansami mogą wynikać w równym lub większym stopniu z różnic w liczbie, funkcji i ekspresji genów na poziomie genomu, a nie ze zmian w sekwencji DNA we wspólnych genach. Rzeczywiście, nawet u ludzi stwierdzono wcześniej niedocenianą ilość zmienności liczby kopii (CNV), która może stanowić nawet 5–15% ludzkiego genomu. Innymi słowy, między ludźmi może istnieć +/- 500 000 000 par zasad DNA, z których niektóre to aktywne geny, inne inaktywowane lub aktywne na różnych poziomach. Pełne znaczenie tego odkrycia dopiero się okaże. Średnio typowy ludzki gen kodujący białko różni się od genu szympansa ortolog tylko przez dwa podstawienia aminokwasów ; prawie jedna trzecia ludzkich genów ma dokładnie taką samą translację białek, jak ich ortologi szympansów. Główną różnicą między tymi dwoma genomami jest ludzki chromosom 2 , który jest równoważny produktowi fuzji chromosomów 12 i 13 szympansa (później przemianowano je odpowiednio na chromosomy 2A i 2B).
Ludzie przeszli niezwykłą utratę genów receptorów węchowych podczas naszej ostatniej ewolucji, co wyjaśnia nasz stosunkowo prymitywny zmysł węchu w porównaniu z większością innych ssaków. Dowody ewolucyjne sugerują, że pojawienie się widzenia kolorów u ludzi i kilku innych gatunków naczelnych zmniejszyło potrzebę węchu.
We wrześniu 2016 r. naukowcy poinformowali, że na podstawie badań genetycznych ludzkiego DNA wszyscy dzisiejsi nie-Afrykanie na świecie można przypisać jednej populacji , która opuściła Afrykę między 50 000 a 80 000 lat temu.
DNA mitochondrialne
Ludzkie mitochondrialne DNA jest przedmiotem ogromnego zainteresowania genetyków, ponieważ niewątpliwie odgrywa rolę w chorobach mitochondrialnych . Rzuca również światło na ewolucję człowieka; na przykład analiza zmienności ludzkiego genomu mitochondrialnego doprowadziła do postulowania niedawnego wspólnego przodka dla wszystkich ludzi w matczynej linii pochodzenia (patrz mitochondrialna Ewa ).
Ze względu na brak systemu sprawdzania błędów kopiowania, mitochondrialne DNA (mtDNA) ma szybsze tempo zmienności niż jądrowe DNA. Ten 20-krotnie wyższy wskaźnik mutacji pozwala na wykorzystanie mtDNA do dokładniejszego śledzenia pochodzenia matki. [ potrzebne źródło ] Badania mtDNA w populacjach pozwoliły prześledzić starożytne ścieżki migracji, takie jak migracja rdzennych Amerykanów z Syberii czy Polinezyjczyków z południowo-wschodniej Azji . [ potrzebne źródło ] Został również użyty, aby pokazać, że nie ma śladu neandertalczyka DNA w europejskiej mieszance genów odziedziczonej wyłącznie po matce. Ze względu na restrykcyjny sposób dziedziczenia mtDNA typu „wszystko lub żaden” wynik ten (brak śladu mtDNA neandertalczyka) byłby prawdopodobny, chyba że istniałby duży procent pochodzenia neandertalskiego lub istniała silna pozytywna selekcja dla tego mtDNA. Na przykład, cofając się o 5 pokoleń, tylko 1 z 32 przodków danej osoby przyczynił się do powstania mtDNA tej osoby, więc jeśli jeden z tych 32 był czystym neandertalczykiem, oczekiwane ~ 3% autosomalnego DNA tej osoby byłoby pochodzenia neandertalskiego, ale mieliby ~97% szans na brak śladu neandertalskiego mtDNA. [ potrzebne źródło ]
Epigenom
Epigenetyka opisuje różnorodne cechy ludzkiego genomu, które wykraczają poza jego pierwotną sekwencję DNA, takie jak upakowanie chromatyny , modyfikacje histonów i metylacja DNA , i które są ważne w regulacji ekspresji genów, replikacji genomu i innych procesów komórkowych. Markery epigenetyczne wzmacniają i osłabiają transkrypcję niektórych genów, ale nie wpływają na rzeczywistą sekwencję nukleotydów DNA. Metylacja DNA jest główną formą kontroli epigenetycznej nad ekspresją genów i jednym z najlepiej zbadanych tematów w epigenetyce. Podczas rozwoju profil metylacji ludzkiego DNA ulega dramatycznym zmianom. We wczesnych komórkach linii zarodkowej genom ma bardzo niski poziom metylacji. Te niskie poziomy ogólnie opisują aktywne geny. W miarę postępu rozwoju znaczniki imprintingu rodzicielskiego prowadzą do zwiększonej aktywności metylacji.
Wzorce epigenetyczne można zidentyfikować między tkankami w obrębie jednostki, a także między samymi osobami. Identyczne geny, które różnią się tylko stanem epigenetycznym, nazywane są epiallelami . Epiallele można podzielić na trzy kategorie: te bezpośrednio określone przez genotyp jednostki, te, na które wpływa genotyp, i te całkowicie niezależne od genotypu. Na epigenom istotny wpływ mają również czynniki środowiskowe. Dieta, toksyny i hormony wpływają na stan epigenetyczny. Badania manipulacji dietą wykazały, że diety z niedoborem metylu są związane z hipometylacją epigenomu. Takie badania ustanawiają epigenetykę jako ważny interfejs między środowiskiem a genomem.
Zobacz też
Linki zewnętrzne
- Przeglądarka genomu T2T-CHM13 v2.0 z adnotacjami (wersja 110).
- Kompletny ludzki genom T2T-CHM13 v2.0 (bez luk)
- Ensembl Projekt przeglądarki genomu Ensembl
- National Library of Medicine Przeglądarka danych genomu (GDV)
- Przeglądarka genomu UCSC przy użyciu T2T-CHM13 v2.0
- Uniprot: według listy genów chromosomów
- Projekt genomu człowieka
- Narodowy Instytut Badań nad Genomem Człowieka
- Krajowe Biuro Genomiki Zdrowia Publicznego
- Prosta przeglądarka ludzkiego genomu