Ludzki genom

Informacje genomowe
	Schematyczne przedstawienie kariotypu diploidalnego człowieka , pokazujące organizację genomu w chromosomy, a także opatrzone adnotacjami prążki i podpasma, jak widać na prążkach G. Ten rysunek pokazuje zarówno żeńską (XX), jak i męską (XY) wersję 23. pary chromosomów. Zmiany chromosomalne podczas cyklu komórkowego są wyświetlane w górnej środkowej części. Genom mitochondrialny jest pokazany w skali w lewym dolnym rogu. ; Dalsze informacje: Kariotyp
Identyfikator genomu NCBI
Ploidia	diploidalny
Rozmiar genomu	3117275501 par zasad (bp)
Liczba chromosomów	23 pary

Ludzki genom to kompletny zestaw sekwencji kwasów nukleinowych dla ludzi , zakodowanych jako DNA w obrębie 23 par chromosomów w jądrach komórkowych oraz w małej cząsteczce DNA znajdującej się w poszczególnych mitochondriach . Są one zwykle traktowane oddzielnie jako genom jądrowy i genom mitochondrialny . Ludzkie genomy obejmują zarówno sekwencje DNA kodujące białka, jak i różne typy DNA, które nie kodują białek . Ta ostatnia jest zróżnicowaną kategorią, która obejmuje DNA kodujące nieulegający translacji RNA, taki jak rybosomalny RNA , transferowy RNA , rybozymy , małe jądrowe RNA i kilka rodzajów regulatorowych RNA . Obejmuje również promotory i związane z nimi elementy regulujące geny , DNA odgrywające role strukturalne i replikacyjne, takie jak regiony rusztowania , telomery , centromery i miejsca inicjacji replikacji , a także dużą liczbę elementy transpozycyjne , wstawiony wirusowy DNA, niefunkcjonalne pseudogeny i proste, wysoce powtarzalne sekwencje . Introny stanowią duży procent niekodującego DNA . Część tego niekodującego DNA to niefunkcjonalne śmieciowe DNA , takie jak pseudogeny, ale nie ma zdecydowanego konsensusu co do całkowitej ilości śmieciowego DNA.

Haploidalne genomy ludzkie, które są zawarte w komórkach rozrodczych ( komórki jajowe i gamety plemników powstające w fazie mejozy rozmnażania płciowego przed zapłodnieniem ) składają się z 3 054 815 472 par zasad DNA (jeśli używany jest chromosom X), podczas gdy genomy diploidalne żeńskie (występujące w komórkach somatycznych komórki ) mają dwukrotnie większą zawartość DNA.

Chociaż istnieją znaczne różnice między genomami osobników ludzkich (rzędu 0,1% z powodu wariantów pojedynczych nukleotydów i 0,6% w przypadku indeli ), są one znacznie mniejsze niż różnice między ludźmi a ich najbliższymi żyjącymi krewnymi, bonobo i szympansy (~ 1,1% utrwalonych wariantów pojedynczego nukleotydu i 4% z uwzględnieniem indeli). Rozmiar w parach podstawowych również może się różnić; długość telomerów zmniejsza się po każdej rundzie replikacji DNA .

Chociaż sekwencja ludzkiego genomu została całkowicie określona przez sekwencjonowanie DNA w 2022 roku (w tym metylację ), nie jest jeszcze w pełni poznana. Większość, ale nie wszystkie geny zostały zidentyfikowane przez połączenie podejść eksperymentalnych i bioinformatycznych o dużej przepustowości , jednak nadal pozostaje wiele do zrobienia, aby dokładniej wyjaśnić funkcje biologiczne ich produktów białkowych i RNA (w szczególności adnotacja kompletnego genu CHM13v2 sekwencja .0 jest nadal w toku). A jednak nakładające się geny są dość powszechne, w niektórych przypadkach pozwalając dwóm genom kodującym białka z każdej nici na dwukrotne ponowne wykorzystanie par zasad (na przykład geny DCDC2 i KAAG1). Ostatnie wyniki sugerują, że większość ogromnych ilości niekodującego DNA w genomie ma powiązane działania biochemiczne, w tym regulację ekspresji genów , organizację architektury chromosomów i sygnały kontrolujące dziedziczenie epigenetyczne . ^{[ potrzebne źródło ]} Istnieje również znaczna liczba retrowirusów w ludzkim DNA , z których co najmniej 3 udowodniono, że pełnią ważną funkcję (tj. HIV -podobne HERV-K, HERV-W i HERV-FRD odgrywają rolę w tworzeniu łożyska poprzez indukowanie fuzji komórka-komórka).

W 2003 roku naukowcy poinformowali o zsekwencjonowaniu 85% całego ludzkiego genomu, ale od 2020 roku nadal brakowało co najmniej 8%.

W 2021 roku naukowcy zgłosili sekwencjonowanie całego genomu kobiety (tj. bez chromosomu Y). Ta sekwencja zidentyfikowała 19 969 białka , stanowiących około 1,5% genomu i łącznie 63 494 genów, z których większość to niekodujące geny RNA. Genom składa się z regulatorowych sekwencji DNA , LINE , SINE , intronów i sekwencji, dla których nie określono jeszcze żadnej funkcji . Ludzki chromosom Y , składający się z 62 460 029 par zasad z innej linii komórkowej i znaleziony u wszystkich samców, został całkowicie zsekwencjonowany w styczniu 2022 r.

Sekwencjonowanie

Pierwsze sekwencje ludzkiego genomu zostały opublikowane w prawie kompletnej formie roboczej w lutym 2001 r. przez Human Genome Project i Celera Corporation . Zakończenie prac nad sekwencjonowaniem Human Genome Project ogłoszono w 2004 r. Publikacją wstępnej sekwencji genomu, pozostawiając zaledwie 341 luk w sekwencji, reprezentujących wysoce powtarzalny i inny DNA, którego nie można było zsekwencjonować za pomocą dostępnej wówczas technologii. Ludzki genom był pierwszym ze wszystkich kręgowców, który został zsekwencjonowany do tak bliskiego ukończenia, a od 2018 r. Diploidalne genomy ponad miliona osobników ludzkich zostały określone za pomocą sekwencjonowanie nowej generacji .

Dane te są wykorzystywane na całym świecie w naukach biomedycznych , antropologii , kryminalistyce i innych gałęziach nauki. Takie badania genomiczne doprowadziły do postępu w diagnostyce i leczeniu chorób oraz do nowych spostrzeżeń w wielu dziedzinach biologii, w tym w ewolucji człowieka .

Do 2018 roku całkowita liczba genów wzrosła do co najmniej 46 831 plus kolejne 2300 genów mikro-RNA . Badanie populacji z 2018 roku wykazało kolejne 300 milionów zasad ludzkiego genomu, których nie było w sekwencji referencyjnej. Przed uzyskaniem pełnej sekwencji genomu szacunki liczby ludzkich genów wahały się od 50 000 do 140 000 (z okazjonalnymi niejasnościami co do tego, czy te szacunki obejmowały geny niekodujące białka). Wraz z poprawą jakości sekwencji genomu i metod identyfikacji genów kodujących białka liczba rozpoznanych genów kodujących białka spadła do 19 000-20 000.

W czerwcu 2016 r. naukowcy oficjalnie ogłosili HGP-Write , plan syntezy ludzkiego genomu.

W 2022 roku konsorcjum Telomere-to-Telomere (T2T) zgłosiło pełną sekwencję ludzkiego genomu żeńskiego, wypełniając wszystkie luki w chromosomie X (2020) i 22 autosomach (maj 2021). Wcześniej niesekwencjonowane części zawierają odpowiedzi immunologicznej , które pomagają przystosować się do infekcji i przetrwać je, a także geny, które są ważne dla przewidywania odpowiedzi na lek . Ukończona sekwencja ludzkiego genomu zapewni również lepsze zrozumienie formowania się człowieka jako pojedynczego organizmu oraz tego, jak ludzie różnią się między sobą i innymi gatunkami.

Osiągnięcie kompletności

Chociaż „ukończenie” projektu ludzkiego genomu ogłoszono w 2001 r., Pozostały setki luk, a około 5–10% całkowitej sekwencji pozostało nieokreślonych. Brakujące informacje genetyczne znajdowały się głównie w powtarzalnych heterochromatycznych oraz w pobliżu centromerów i telomerów , ale także w niektórych regionach euchromatycznych kodujących geny . Pozostało 160 luk euchromatycznych w 2015 r., Kiedy określono sekwencje obejmujące kolejne 50 regionów, które wcześniej nie były sekwencjonowane. Dopiero w 2020 r. określono pierwszą prawdziwie kompletną sekwencję telomer-telomer ludzkiego chromosomu, a mianowicie chromosom X. Pierwsza kompletna sekwencja telomer-telomer ludzkiego chromosomu autosomalnego, chromosomu 8 , pojawiła się rok później. Pełny genom człowieka (bez chromosomu Y) został opublikowany w 2021 r., natomiast z chromosomem Y w styczniu 2022 r.

Organizacja molekularna i zawartość genów

Całkowita długość ludzkiego genomu referencyjnego , która nie reprezentuje sekwencji żadnego konkretnego osobnika. Genom jest zorganizowany w 22 sparowane chromosomy, zwane autosomami , oraz 23. parę chromosomów płciowych (XX) u kobiet i (XY) u mężczyzn. Genom haploidalny ma 3 054 815 472 par zasad, gdy chromosom X jest włączony, i 2 963 015 935 par zasad, gdy chromosom Y jest zastąpiony chromosomem X. Wszystkie te chromosomy są dużymi liniowymi cząsteczkami DNA zawartymi w jądrze komórkowym. Genom obejmuje również DNA mitochondrialne , stosunkowo mała kolista cząsteczka występująca w wielu kopiach w każdym mitochondrium .

Dane referencyjne człowieka, według chromosomu
Chromosomy _	Długość	Pary bazowe	Wariacje _	Geny kodujące białka	Pseudogeny _	Całkowity długi ncRNA	Całkowity mały ncRNA	miRNA	rRNA	snRNA	snoRNA	Różne ncRNA	Spinki do mankietów	Pozycja centromeru ( Mbp )	Skumulowany ( %)
1	8,5 cm	248387328	12151146	2058	1220	1200	496	134	66	221	145	192	EBI	125	7.9
2	8,3 cm	242 696 752	12 945 965	1309	1023	1037	375	115	40	161	117	176	EBI	93,3	16.2
3	6,7 cm	201 105 948	10 638 715	1078	763	711	298	99	29	138	87	134	EBI	91	23
4	6,5 cm	193 574 945	10 165 685	752	727	657	228	92	24	120	56	104	EBI	50,4	29,6
5	6,2 cm	182 045 439	9519995	876	721	844	235	83	25	106	61	119	EBI	48,4	35,8
6	5,8 cm	172 126 628	9130476	1048	801	639	234	81	26	111	73	105	EBI	61	41,6
7	5,4 cm	160 567 428	8613298	989	885	605	208	90	24	90	76	143	EBI	59,9	47.1
8	5,0 cm	146 259 331	8221520	677	613	735	214	80	28	86	52	82	EBI	45,6	52
9	4,8 cm	150 617 247	6590811	786	661	491	190	69	19	66	51	96	EBI	49	56,3
10	4,6 cm	134 758 134	7 223 944	733	568	579	204	64	32	87	56	89	EBI	40.2	60,9
11	4,6 cm	135 127 769	7535370	1298	821	710	233	63	24	74	76	97	EBI	53,7	65,4
12	4,5cm	133 324 548	7228129	1034	617	848	227	72	27	106	62	115	EBI	35,8	70
13	3,9 cm	113 566 686	5 082 574	327	372	397	104	42	16	45	34	75	EBI	17,9	73,4
14	3,6 cm	101 161 492	4 865 950	830	523	533	239	92	10	65	97	79	EBI	17.6	76,4
15	3,5 cm	99 753 195	4515076	613	510	639	250	78	13	63	136	93	EBI	19	79,3
16	3,1 cm	96 330 374	5101702	873	465	799	187	52	32	53	58	51	EBI	36,6	82
17	2,8 cm	84 276 897	4 614 972	1197	531	834	235	61	15	80	71	99	EBI	24	84,8
18	2,7 cm	80 542 538	4 035 966	270	247	453	109	32	13	51	36	41	EBI	17.2	87,4
19	2,0 cm	61 707 364	3 858 269	1472	512	628	179	110	13	29	31	61	EBI	26,5	89,3
20	2,1 cm	66 210 255	3 439 621	544	249	384	131	57	15	46	37	68	EBI	27,5	91,4
21	1,6 cm	45 090 682	2 049 697	234	185	305	71	16	5	21	19	24	EBI	13.2	92,6
22	1,7 cm	51 324 926	2135311	488	324	357	78	31	5	23	23	62	EBI	14.7	93,8
X	5,3 cm	154 259 566	5 753 881	842	874	271	258	128	22	85	64	100	EBI	60,6	99,1
Y	2,0 cm	62.460.029	211643	71	388	71	30	15	7	17	3	8	EBI	10.4	100
mtDNA	5,4 μm	16569	929	13	0	0	24	0	2	0	0	0	EBI	Nie dotyczy	100

hapl 1-23 + X	104 cm	3 054 815 472		20328	14212	14656	4983	1741	523	1927	1518	2205
hapl 1-23 + Y	101 cm	2 963 015 935		19557	13726	14456	4755	1628	508	1859	1457	2113
dyplom + mt `♀`	208,23 cm	6109647513		40669	28424	29312	9990	3482	1048	3854	3036	4410
dyplom + mt `♂`	205,00 cm	6 017 847 976		39898	27938	29112	9762	3369	1033	3786	2975	4318

Oryginalna analiza opublikowana w bazie danych Ensembl w Europejskim Instytucie Bioinformatyki (EBI) i Wellcome Trust Sanger Institute . Długości chromosomów oszacowane przez pomnożenie liczby par zasad (starszego genomu referencyjnego, nie CHM13v2.0) przez 0,34 nanometra (odległość między parami zasad w najpowszechniejszej strukturze podwójnej helisy DNA; niedawne oszacowanie długości ludzkich chromosomów na podstawie zaktualizowanych dane podają 205,00 cm dla diploidalnego genomu męskiego i 208,23 cm dla samicy, co odpowiada masie odpowiednio 6,41 i 6,51 pikogramów (pg). Liczba białek jest oparta na liczbie początkowej prekursorowych transkryptów mRNA i nie obejmuje produktów alternatywnego splicingu pre-mRNA ani modyfikacji struktury białek zachodzących po translacji .

Wariacje to unikalne różnice w sekwencji DNA, które zostały zidentyfikowane w poszczególnych sekwencjach ludzkiego genomu analizowanych przez Ensembl w grudniu 2016 r. Oczekuje się, że liczba zidentyfikowanych odmian wzrośnie w miarę sekwencjonowania i analizowania kolejnych genomów osobistych . Oprócz zawartości genów pokazanej w tej tabeli, w całym ludzkim genomie zidentyfikowano dużą liczbę niewyrażonych sekwencji funkcjonalnych (patrz poniżej). Łącza otwarte okna do referencyjnych sekwencji chromosomów w przeglądarce genomu EBI.

Małe niekodujące RNA to RNA o długości aż 200 zasad, które nie mają potencjału kodowania białek. Należą do nich: mikroRNA lub miRNA (potranskrypcyjne regulatory ekspresji genów), małe jądrowe RNA lub snRNA (składniki RNA spliceosomów ) oraz małe jądrowe RNA lub snoRNA (zaangażowane w kierowanie modyfikacjami chemicznymi innych cząsteczek RNA). Długie niekodujące RNA to cząsteczki RNA dłuższe niż 200 zasad, które nie mają potencjału kodowania białek. Należą do nich: rybosomalne RNA lub rRNA (składniki RNA rybosomów ) i wiele innych długich RNA, które biorą udział w regulacji ekspresji genów , modyfikacjach epigenetycznych nukleotydów DNA i białek histonowych oraz regulacji aktywności genów kodujących białka. Niewielkie rozbieżności między liczbą całkowitych małych ncRNA a liczbą określonych typów małych ncNRA wynikają z tego, że pierwsze wartości pochodzą z wydania Ensembl 87, a drugie z wydania Ensembl 68.

Liczba genów w ludzkim genomie nie jest do końca jasna, ponieważ funkcja wielu transkryptów pozostaje niejasna. Jest to szczególnie prawdziwe w przypadku niekodującego RNA . Liczba genów kodujących białka jest lepiej znana, ale nadal istnieje około 1400 wątpliwych genów, które mogą, ale nie muszą, kodować funkcjonalne białka, zwykle kodowane przez krótkie otwarte ramki odczytu .

Rozbieżności w szacunkach liczby ludzkich genów między różnymi bazami danych, stan na lipiec 2018 r
	Genkod	zespół	Refsekw	SZACHY
geny kodujące białka	19901	20376	20345	21306
geny lncRNA	15779	14720	17712	18484
antysensowny RNA	5501		28	2694
różne RNA	2213	2222	13 899	4347
Pseudogenes	14723	1740	15952
całkowite transkrypcje	203835	203903	154484	328827

Liczba genów (pomarańczowy) i par zasad (zielony, w milionach) na każdym chromosomie

Treść informacji

Haploidalny ludzki genom (23 chromosomy ) ma długość około 3 miliardów par zasad i zawiera około 30 000 genów . Ponieważ każdą parę zasad można zakodować za pomocą 2 bitów, daje to około 750 megabajtów danych. Pojedyncza komórka somatyczna ( diploidalna ) zawiera dwa razy tyle, czyli około 6 miliardów par zasad. Mężczyźni mają mniej niż kobiety, ponieważ chromosom Y ma około 62 milionów par zasad, podczas gdy X ma około 154 milionów. Ponieważ poszczególne genomy różnią się między sobą sekwencją o mniej niż 1%, różnice w genomie danego człowieka względem wspólnego odniesienia mogą być bezstratnie skompresowane do około 4 megabajtów.

Szybkość entropii genomu różni się znacznie między sekwencjami kodującymi i niekodującymi. Jest blisko maksimum 2 bitów na parę zasad dla sekwencji kodujących (około 45 milionów par zasad), ale mniej dla części niekodujących. Waha się od 1,5 do 1,9 bitów na parę zasad dla pojedynczego chromosomu, z wyjątkiem chromosomu Y, który ma współczynnik entropii poniżej 0,9 bitów na parę zasad.

Kodowanie a niekodowanie DNA

Zawartość ludzkiego genomu jest powszechnie podzielona na kodujące i niekodujące sekwencje DNA. Kodujące DNA definiuje się jako te sekwencje, które mogą być transkrybowane na mRNA i tłumaczone na białka podczas cyklu życia człowieka; sekwencje te zajmują tylko niewielką część genomu (<2%). Niekodujący DNA składa się z wszystkich tych sekwencji (ok. 98% genomu), które nie są używane do kodowania białek.

Niektóre niekodujące DNA zawierają geny dla cząsteczek RNA o ważnych funkcjach biologicznych ( niekodujący RNA , na przykład rybosomalny RNA i transferowy RNA ). Badanie funkcji i ewolucyjnego pochodzenia niekodującego DNA jest ważnym celem współczesnych badań nad genomem, w tym ENCODE (Encyclopedia of DNA Elements), którego celem jest zbadanie całego ludzkiego genomu przy użyciu różnorodnych narzędzi eksperymentalnych, których wyniki wskazują na aktywność molekularną. Jest jednak kwestionowane, czy sama aktywność molekularna (transkrypcja DNA na RNA) implikuje, że wytworzony RNA ma znaczącą funkcję biologiczną, ponieważ eksperymenty wykazały, że losowy niefunkcjonalny DNA będzie również w sposób powtarzalny rekrutować czynniki transkrypcyjne, co skutkuje transkrypcją do niefunkcjonalnego RNA.

Nie ma zgody co do tego, co stanowi „funkcjonalny” element genomu, ponieważ genetycy, biolodzy ewolucyjni i biolodzy molekularni stosują różne definicje i metody. Ze względu na niejednoznaczność terminologii pojawiły się różne szkoły myślenia. W definicjach ewolucyjnych „funkcjonalny” DNA, niezależnie od tego, czy jest kodujący, czy niekodujący, przyczynia się do sprawności organizmu i dlatego jest utrzymywany przez ujemną presję ewolucyjną, podczas gdy „niefunkcjonalny” DNA nie przynosi organizmowi żadnych korzyści i dlatego jest pod neutralnym ciśnieniem selekcyjnym. Ten typ DNA został opisany jako śmieciowe DNA W definicjach genetycznych „funkcjonalny” DNA jest powiązany z tym, jak segmenty DNA manifestują się według fenotypu, a „niefunkcjonalny” jest związany ze skutkami utraty funkcji w organizmie. W definicjach biochemicznych „funkcjonalny” DNA odnosi się do sekwencji DNA, które określają produkty molekularne (np. niekodujące RNA) i aktywności biochemiczne z mechanistyczną rolą w regulacji genów lub genomu (tj. sekwencje DNA, które wpływają na aktywność na poziomie komórkowym, takie jak typ komórki, stan i procesy). W literaturze nie ma zgody co do ilości funkcjonalnego DNA, ponieważ w zależności od tego, jak rozumiana jest „funkcja”, oszacowano zakresy od do 90% ludzkiego genomu to prawdopodobnie niefunkcjonalne DNA (śmieciowe DNA) do nawet 80% genomu jest prawdopodobnie funkcjonalny. Możliwe jest również, że śmieciowe DNA może w przyszłości zyskać jakąś funkcję i dlatego może odgrywać rolę w ewolucji, ale zdarza się to bardzo rzadko. Wreszcie DNA, które jest szkodliwe dla organizmu i znajduje się pod negatywną presją selekcyjną, nazywane jest śmieciowym DNA.

Ponieważ liczba niekodującego DNA znacznie przewyższa liczbę kodującego DNA, koncepcja zsekwencjonowanego genomu stała się bardziej ukierunkowaną koncepcją analityczną niż klasyczna koncepcja genu kodującego DNA.

Sekwencje kodujące (geny kodujące białka)

Ludzkie geny skategoryzowane według funkcji transkrybowanych białek, podane zarówno jako liczba genów kodujących, jak i odsetek wszystkich genów

Sekwencje kodujące białka reprezentują najszerzej badany i najlepiej poznany składnik ludzkiego genomu. Sekwencje te ostatecznie prowadzą do produkcji wszystkich ludzkich białek , chociaż kilka procesów biologicznych (np. rearanżacje DNA i alternatywny splicing pre-mRNA ) może prowadzić do produkcji znacznie większej liczby unikalnych białek niż liczba genów kodujących białka. Pełna modułowa zdolność genomu do kodowania białek jest zawarta w egzomie i składa się z sekwencji DNA kodowanych przez eksony które można przetłumaczyć na białka. Ze względu na swoje znaczenie biologiczne oraz fakt, że stanowi mniej niż 2% genomu, sekwencjonowanie egzomu było pierwszym ważnym krokiem milowym w projekcie Human Genome Project.

Liczba genów kodujących białka . Około 20 000 ludzkich białek zostało opisanych w bazach danych, takich jak Uniprot . Historycznie rzecz biorąc, szacunki dotyczące liczby genów białek były bardzo zróżnicowane, sięgając do 2 000 000 pod koniec lat 60., ale kilku badaczy wskazało na początku lat 70 . funkcjonalnych loci (obejmuje to geny kodujące białka i funkcjonalne geny niekodujące). Liczba ludzkich genów kodujących białka nie jest znacznie większa niż w przypadku wielu mniej złożonych organizmów, takich jak glisty i muszki owocówki . Ta różnica może wynikać z szerokiego zastosowania alternatywnego składania pre-mRNA u ludzi, co daje możliwość budowy bardzo dużej liczby białek modularnych poprzez selektywne wbudowywanie eksonów.

Zdolność kodowania białek na chromosom . Geny kodujące białka są rozmieszczone nierównomiernie na chromosomach, od kilkudziesięciu do ponad 2000, ze szczególnie dużą gęstością genów w chromosomach 1, 11 i 19. Każdy chromosom zawiera różne regiony bogate w geny i ubogie w geny, które może być skorelowany z prążkami chromosomów i zawartością GC . Znaczenie tych nielosowych wzorców gęstości genów nie jest dobrze poznane.

Rozmiar genów kodujących białka . Rozmiar genów kodujących białka w ludzkim genomie wykazuje ogromną zmienność. Na przykład gen histonu H1a (HIST1HIA) jest stosunkowo mały i prosty, pozbawiony intronów i kodujący mRNA o długości 781 nukleotydów, który wytwarza białko o długości 215 aminokwasów z otwartej ramki odczytu o długości 648 nukleotydów . Dystrofina (DMD) była największym genem kodującym białka w ludzkim genomie referencyjnym z 2001 r., obejmującym łącznie 2,2 miliona nukleotydów, podczas gdy nowsza systematyczna metaanaliza zaktualizowanych danych dotyczących ludzkiego genomu zidentyfikowała jeszcze większy gen kodujący białka, RBFOX1 (białko wiążące RNA, fox-1 homolog 1), obejmujący łącznie 2,47 miliona nukleotydów. Tytyna (TTN) ma najdłuższą sekwencję kodującą (114 414 nukleotydów), największą liczbę eksonów (363) i najdłuższy pojedynczy ekson (17 106 nukleotydów). Jak oszacowano na podstawie wyselekcjonowanego zestawu genów kodujących białka w całym genomie, mediana wielkości wynosi 26 288 nukleotydów (średnia = 66 577), mediana wielkości eksonu 133 nukleotydy (średnia = 309), mediana liczby egzonów 8 ( średnia = 11), a mediana kodowanego białka ma długość 425 aminokwasów (średnia = 553).

Przykłady genów kodujących ludzkie białka
Białko	Chrom	Gen	Długość	eksony	Długość egzonu	Długość intronu	Alternatywne łączenie
Białko podatności na raka piersi typu 2	13	BRCA2	83736	27	11386	72350	Tak
Przezbłonowy regulator przewodnictwa mukowiscydozy	7	CFTR	202881	27	4440	198441	Tak
Cytochrom b	MT	MTCYB	1140	1	1140	0	NIE
Dystrofina	X	DMD	2220381	79	10500	2 209 881	Tak
Dehydrogenaza gliceraldehydo-3-fosforanowa	12	GAPDH	4444	9	1425	3019	Tak
Podjednostka beta hemoglobiny	11	HBB	1605	3	626	979	NIE
Histon H1A	6	HIST1H1A	781	1	781	0	NIE
Titin	2	TTN	281434	364	104301	177133	Tak

Niekodujące DNA (ncDNA)

Niekodujący DNA definiuje się jako wszystkie sekwencje DNA w genomie, które nie znajdują się w eksonach kodujących białka, a zatem nigdy nie są reprezentowane w sekwencji aminokwasowej białek ulegających ekspresji. Zgodnie z tą definicją ponad 98% ludzkich genomów składa się z ncDNA.

Zidentyfikowano wiele klas niekodującego DNA, w tym geny niekodującego RNA (np. tRNA i rRNA), pseudogeny, introny, nieulegające translacji regiony mRNA, regulatorowe sekwencje DNA, powtarzalne sekwencje DNA oraz sekwencje związane z ruchomymi elementami genetycznymi.

Liczne sekwencje zawarte w genach są również definiowane jako niekodujące DNA. Należą do nich geny niekodującego RNA (np. tRNA, rRNA) oraz nieulegające translacji składniki genów kodujących białka (np. introny oraz nieulegające translacji regiony 5' i 3' mRNA).

Sekwencje kodujące białka (konkretnie egzony kodujące ) stanowią mniej niż 1,5% ludzkiego genomu. Ponadto około 26% ludzkiego genomu to introny . Oprócz genów (eksonów i intronów) oraz znanych sekwencji regulatorowych (8–20%), ludzki genom zawiera regiony niekodującego DNA. Dokładna ilość niekodującego DNA, który odgrywa rolę w fizjologii komórki, była przedmiotem gorących dyskusji. Niedawna analiza przeprowadzona w ramach ENCODE wskazuje, że 80% całego ludzkiego genomu podlega transkrypcji, wiąże się z białkami regulatorowymi lub jest związane z inną aktywnością biochemiczną.

Pozostaje jednak kontrowersyjne, czy cała ta aktywność biochemiczna przyczynia się do fizjologii komórki, czy też znaczna jej część jest wynikiem szumu transkrypcyjnego i biochemicznego, który musi być aktywnie filtrowany przez organizm. Z wyjątkiem sekwencji kodujących białka, intronów i regionów regulatorowych, większość niekodującego DNA składa się z: Wiele sekwencji DNA, które nie odgrywają roli w ekspresji genów, pełni ważne funkcje biologiczne. Porównawcze badania genomiczne wskazują, że około 5% genomu zawiera sekwencje niekodującego DNA, które są wysoce konserwatywne , czasami w skalach czasowych reprezentujących setki milionów lat, co sugeruje, że te niekodujące regiony znajdują się pod silną presją ewolucyjną i doborem oczyszczającym .

Wiele z tych sekwencji reguluje strukturę chromosomów poprzez ograniczanie regionów tworzenia heterochromatyny i regulację cech strukturalnych chromosomów, takich jak telomery i centromery . Inne regiony niekodujące służą jako początek replikacji DNA . Wreszcie kilka regionów ulega transkrypcji do funkcjonalnego niekodującego RNA, które reguluje ekspresję genów kodujących białka (na przykład), translację i stabilność mRNA (patrz miRNA ), strukturę chromatyny (w tym histon na przykład modyfikacje), metylację DNA (na przykład), rekombinację DNA (na przykład) i regulację krzyżową innych niekodujących RNA (na przykład). Jest również prawdopodobne, że wiele transkrybowanych regionów niekodujących nie pełni żadnej roli i że ta transkrypcja jest produktem niespecyficznej polimerazy RNA .

Pseudogenes

Pseudogeny to nieaktywne kopie genów kodujących białka, często generowane przez duplikację genów , które stały się niefunkcjonalne w wyniku nagromadzenia mutacji inaktywujących. Liczba pseudogenów w ludzkim genomie jest rzędu 13 000, aw niektórych chromosomach jest prawie taka sama jak liczba funkcjonalnych genów kodujących białka. Duplikacja genów jest głównym mechanizmem generowania nowego materiału genetycznego podczas ewolucji molekularnej .

Na przykład rodzina genów receptorów węchowych jest jednym z najlepiej udokumentowanych przykładów pseudogenów w ludzkim genomie. Ponad 60 procent genów z tej rodziny to niefunkcjonalne pseudogeny u ludzi. Dla porównania, tylko 20 procent genów w rodzinie genów mysich receptorów węchowych to pseudogeny. Badania sugerują, że jest to cecha specyficzna dla gatunku, ponieważ wszystkie najbardziej spokrewnione naczelne mają proporcjonalnie mniej pseudogenów. To odkrycie genetyczne pomaga wyjaśnić mniej wyostrzony zmysł węchu u ludzi w porównaniu z innymi ssakami.

Geny niekodującego RNA (ncRNA)

Niekodujące cząsteczki RNA odgrywają wiele istotnych ról w komórkach, zwłaszcza w wielu reakcjach syntezy białek i przetwarzania RNA . Niekodujący RNA obejmuje tRNA , rybosomalny RNA, mikroRNA , snRNA i inne niekodujące geny RNA, w tym około 60 000 długich niekodujących RNA (lncRNA). Chociaż liczba zgłaszanych genów lncRNA wciąż rośnie, a dokładna liczba w ludzkim genomie nie została jeszcze zdefiniowana, wiele z nich uważa się za niefunkcjonalne.

Wiele ncRNA to krytyczne elementy regulacji i ekspresji genów. Niekodujący RNA ma również udział w epigenetyce, transkrypcji, splicingu RNA i maszynerii translacyjnej. Rola RNA w regulacji genetycznej i chorobach oferuje nowy potencjalny poziom niezbadanej złożoności genomowej.

Introny i nieulegające translacji regiony mRNA

Oprócz cząsteczek ncRNA, które są kodowane przez oddzielne geny, początkowe transkrypty genów kodujących białka zwykle zawierają rozległe sekwencje niekodujące, w postaci intronów, regionów nieulegających translacji 5' (5'-UTR) i regionów nieulegających translacji 3' (3'-UTR). W większości genów kodujących białka ludzkiego genomu długość sekwencji intronów jest od 10 do 100 razy większa niż długość sekwencji eksonów.

Regulacyjne sekwencje DNA

Ludzki genom ma wiele różnych sekwencji regulatorowych , które są kluczowe dla kontrolowania ekspresji genów . Konserwatywne szacunki wskazują, że sekwencje te stanowią 8% genomu, jednak ekstrapolacje z ENCODE wskazują, że 20-40% genomu to sekwencja regulatorowa genów. Niektóre typy niekodującego DNA to genetyczne „przełączniki”, które nie kodują białek, ale regulują, kiedy i gdzie geny ulegają ekspresji (tzw. wzmacniacze ).

Sekwencje regulacyjne są znane od późnych lat 60. XX wieku. Pierwsza identyfikacja sekwencji regulatorowych w ludzkim genomie opierała się na technologii rekombinacji DNA. Później, wraz z pojawieniem się sekwencjonowania genomowego, identyfikację tych sekwencji można było wywnioskować na podstawie ewolucyjnej ochrony. gałąź ewolucyjna między naczelnymi a myszami miała miejsce 70–90 milionów lat temu. Tak więc komputerowe porównania sekwencji genów, które identyfikują konserwatywne sekwencje niekodujące, będą wskazówką ich znaczenia w obowiązkach, takich jak regulacja genów.

Inne genomy zostały zsekwencjonowane w tym samym celu, aby wspomóc metody ukierunkowane na ochronę, na przykład genom rozdymki . Jednak sekwencje regulatorowe znikają i ponownie ewoluują podczas ewolucji w szybkim tempie.

Od 2012 roku wysiłki przesunęły się w kierunku znalezienia interakcji między DNA a białkami regulatorowymi za pomocą techniki ChIP-Seq lub luk, w których DNA nie jest upakowane przez histony ( miejsca nadwrażliwe na DNazę ), z których oba wskazują, gdzie są aktywne sekwencje regulatorowe w badany typ komórek.

Powtarzające się sekwencje DNA

Powtarzające się sekwencje DNA stanowią około 50% ludzkiego genomu.

Około 8% ludzkiego genomu składa się z tandemowych macierzy DNA lub tandemowych powtórzeń, sekwencji powtórzeń o niskiej złożoności, które mają wiele przylegających kopii (np. „CAGCAGCAG…”). Sekwencje tandemowe mogą mieć różne długości, od dwóch do kilkudziesięciu nukleotydów. Sekwencje te są bardzo zmienne, nawet wśród blisko spokrewnionych osób, dlatego są wykorzystywane do genealogicznych testów DNA i analizy kryminalistycznej DNA .

Powtarzające się sekwencje zawierające mniej niż dziesięć nukleotydów (np. powtórzenie dinukleotydu (AC) _n ) nazywane są sekwencjami mikrosatelitarnymi. Wśród sekwencji mikrosatelitarnych szczególne znaczenie mają powtórzenia trinukleotydowe, które czasami występują w regionach kodujących geny dla białek i mogą prowadzić do zaburzeń genetycznych. Na przykład choroba Huntingtona wynika z ekspansji powtórzeń trinukleotydów (CAG) _n w obrębie genu Huntingtona na ludzkim chromosomie 4. Telomery (końce liniowych chromosomów) kończą się mikrosatelitarnym powtórzeniem heksanukleotydowym sekwencji (TTAGGG) _n .

Tandemowe powtórzenia dłuższych sekwencji (tablice powtarzających się sekwencji o długości 10–60 nukleotydów) nazywane są minisatelitami .

Ruchome elementy genetyczne (transpozony) i ich relikty

Transponowalne elementy genetyczne , sekwencje DNA, które mogą się replikować i wstawiać swoje kopie w innych miejscach w genomie gospodarza, są obfitym składnikiem ludzkiego genomu. Najliczniejsza linia transpozonów, Alu , ma około 50 000 aktywnych kopii i może być wstawiona do regionów wewnątrzgenowych i międzygenowych. Jedna inna linia, LINE-1, ma około 100 aktywnych kopii na genom (liczba różni się w zależności od osoby). Wraz z niefunkcjonalnymi reliktami starych transpozonów stanowią one ponad połowę całkowitego ludzkiego DNA. Czasami nazywane „skaczącymi genami”, transpozony odegrały główną rolę w rzeźbieniu ludzkiego genomu. Niektóre z tych sekwencji reprezentują endogenne retrowirusy , kopie DNA sekwencji wirusowych, które zostały trwale zintegrowane z genomem i są obecnie przekazywane kolejnym pokoleniom.

Ruchome elementy ludzkiego genomu można podzielić na retrotranspozony LTR (8,3% całego genomu), SINE (13,1% całego genomu), w tym elementy Alu , LINE (20,4% całego genomu), SVA (SINE- VNTR -Alu) i Transpozony DNA klasy II (2,9% całego genomu).

Zmienność genomu u ludzi

Ludzki genom referencyjny

Z wyjątkiem bliźniąt jednojajowych wszyscy ludzie wykazują znaczne różnice w sekwencjach genomowego DNA. Ludzki genom referencyjny (HRG) jest używany jako standardowa sekwencja referencyjna.

Istnieje kilka ważnych punktów dotyczących ludzkiego genomu odniesienia:

HRG jest sekwencją haploidalną. Każdy chromosom jest reprezentowany raz.
HRG jest złożoną sekwencją i nie odpowiada żadnemu rzeczywistemu osobnikowi ludzkiemu.
HRG jest okresowo aktualizowana w celu poprawienia błędów, niejasności i nieznanych „luk”.
HRG w żaden sposób nie reprezentuje „idealnego” ani „doskonałego” człowieka. Jest to po prostu znormalizowana reprezentacja lub model używany do celów porównawczych.

Genome Reference Consortium jest odpowiedzialne za aktualizację HRG. Wersja 38 została wydana w grudniu 2013 roku.

Pomiar zmienności genetycznej człowieka

Większość badań zmienności genetycznej człowieka koncentrowała się na polimorfizmach pojedynczych nukleotydów (SNP), które są substytucjami w poszczególnych zasadach wzdłuż chromosomu. Większość analiz szacuje, że SNP występują średnio 1 na 1000 par zasad w euchromatycznym ludzkim genomie, chociaż nie występują one w jednolitej gęstości. Tak wynika z popularnego stwierdzenia, że „wszyscy, niezależnie od rasy , jesteśmy genetycznie w 99,9% tacy sami”, chociaż większość genetyków uznałoby to za pewne. Na przykład obecnie uważa się, że znacznie większa część genomu jest zaangażowana w zmienność liczby kopii . Międzynarodowy projekt HapMap podejmuje wspólne wysiłki na dużą skalę w celu skatalogowania odmian SNP w ludzkim genomie .

Loci genomowe i długość niektórych typów małych powtarzalnych sekwencji są bardzo zmienne w zależności od osoby, co jest podstawą technologii pobierania odcisków palców DNA i testowania ojcostwa DNA . Uważa się również, że heterochromatyczne części ludzkiego genomu, które łącznie mają kilkaset milionów par zasad, są dość zmienne w obrębie populacji ludzkiej (są tak powtarzalne i tak długie, że nie można ich dokładnie zsekwencjonować przy użyciu obecnej technologii) . Regiony te zawierają niewiele genów i nie jest jasne, czy mają jakikolwiek znaczący fenotyp efekt wynika z typowej zmienności powtórzeń lub heterochromatyny.

Większość poważnych mutacji genomowych w komórkach rozrodczych gamet prawdopodobnie skutkuje zarodkami niezdolnymi do życia; jednak wiele chorób ludzkich jest związanych z nieprawidłowościami genomowymi na dużą skalę. Zespół Downa , zespół Turnera i wiele innych chorób wynika z niedysjunkcji całych chromosomów. Komórki nowotworowe często mają aneuploidię chromosomów i ramion chromosomów, chociaż nie ustalono związku przyczynowo-skutkowego między aneuploidią a rakiem.

Mapowanie zmienności genomu człowieka

Podczas gdy sekwencja genomu wymienia kolejność każdej zasady DNA w genomie, mapa genomu identyfikuje punkty orientacyjne. Mapa genomu jest mniej szczegółowa niż sekwencja genomu i pomaga w poruszaniu się po genomie.

Przykładem mapy wariacyjnej jest HapMap opracowywana przez International HapMap Project . HapMap to haplotypów ludzkiego genomu, „która będzie opisywać typowe wzorce zmienności sekwencji ludzkiego DNA”. Kataloguje wzorce zmian w genomie na małą skalę, które obejmują pojedyncze litery lub zasady DNA.

r. naukowcy opublikowali pierwszą opartą na sekwencjach mapę zmienności strukturalnej ludzkiego genomu w czasopiśmie Nature . Wielkoskalowe zmienności strukturalne to różnice w genomie między ludźmi, które wahają się od kilku tysięcy do kilku milionów zasad DNA ; niektóre to zyski lub straty odcinków sekwencji genomu, a inne pojawiają się jako rearanżacje odcinków sekwencji. Wariacje te obejmują różnice w liczbie posiadanych przez osobników kopii danego genu, delecje, translokacje i inwersje.

Zmienność strukturalna

Zmienność strukturalna odnosi się do wariantów genetycznych, które wpływają na większe segmenty ludzkiego genomu, w przeciwieństwie do mutacji punktowych . Często warianty strukturalne (SV) definiuje się jako warianty o długości 50 par zasad (pz) lub większej, takie jak delecje, duplikacje, insercje, inwersje i inne przegrupowania. Około 90% wariantów strukturalnych to delecje niekodujące, ale większość osobników ma ponad tysiąc takich delecji; wielkość delecji waha się od kilkudziesięciu par zasad do dziesiątek tysięcy pz. Osoby posiadają średnio ~3 rzadkie warianty strukturalne, które zmieniają regiony kodujące, np. usuwają eksony . Około 2% osób ma bardzo rzadkie warianty strukturalne w skali megazasad, zwłaszcza przegrupowania. Oznacza to, że w chromosomie mogą być odwrócone miliony par zasad; ultrarzadkie oznacza, że występują tylko u osobników lub członków ich rodzin, a zatem pojawiły się bardzo niedawno.

Częstotliwość SNP w całym ludzkim genomie

Polimorfizmy pojedynczego nukleotydu (SNP) nie występują jednorodnie w ludzkim genomie. W rzeczywistości istnieje ogromne zróżnicowanie SNP między genami, odzwierciedlające różne presje selekcyjne na każdy gen, a także różne wskaźniki mutacji i rekombinacji w całym genomie. Jednak badania nad SNP są ukierunkowane na regiony kodujące, jest mało prawdopodobne, aby dane z nich wygenerowane odzwierciedlały ogólną dystrybucję SNP w całym genomie. Dlatego Konsorcjum SNP protokół został zaprojektowany w celu identyfikacji SNP bez uprzedzeń w stosunku do regionów kodujących, a 100 000 SNP Konsorcjum generalnie odzwierciedla różnorodność sekwencji w ludzkich chromosomach. Konsorcjum SNP ma na celu zwiększenie liczby SNP zidentyfikowanych w całym genomie do 300 000 do końca pierwszego kwartału 2001 roku.

Dystrybucja TSC SNP wzdłuż długiego ramienia chromosomu 22 (z https://web.archive.org/web/20130903043223/http://snp.cshl.org/ ). Każda kolumna reprezentuje przedział 1 Mb; przybliżona pozycja cytogenetyczna jest podana na osi x. Można zobaczyć wyraźne piki i dołki gęstości SNP, prawdopodobnie odzwierciedlające różne szybkości mutacji, rekombinacji i selekcji.

Zmiany w sekwencji niekodującej i zmiany synonimiczne w sekwencji kodującej są generalnie bardziej powszechne niż zmiany niesynonimiczne, odzwierciedlając większą różnorodność zmniejszającą ciśnienie selekcyjne w pozycjach dyktujących tożsamość aminokwasów. Zmiany przejściowe są częstsze niż transwersje, przy czym dinukleotydy CpG wykazują najwyższy wskaźnik mutacji, prawdopodobnie z powodu deaminacji.

Genomy osobowe

Osobista sekwencja genomu to (prawie) kompletna sekwencja chemicznych par zasad, które składają się na DNA pojedynczej osoby. Ponieważ terapie medyczne mają różny wpływ na różnych ludzi ze względu na różnice genetyczne, takie jak polimorfizm pojedynczego nukleotydu (SNP), analiza genomów osobistych może prowadzić do spersonalizowanego leczenia opartego na poszczególnych genotypach.

Pierwszą sekwencją genomu osobistego, którą określono, była sekwencja genomu Craiga Ventera w 2007 r. Genomy osobiste nie zostały zsekwencjonowane w ramach publicznego projektu genomu ludzkiego w celu ochrony tożsamości ochotników, którzy dostarczyli próbki DNA. Ta sekwencja została wyprowadzona z DNA kilku ochotników z zróżnicowanej populacji. Jednak na początku prowadzonej przez Ventera firmy Celera Genomics W ramach wysiłków związanych z sekwencjonowaniem genomu podjęto decyzję o przejściu z sekwencjonowania próbki złożonej na użycie DNA pojedynczego osobnika, który później okazał się być samym Venterem. Tak więc sekwencja ludzkiego genomu Celera opublikowana w 2000 roku była w dużej mierze sekwencją jednego człowieka. Późniejsze zastąpienie wczesnych danych pochodzących z kompozytów i określenie sekwencji diploidalnej, reprezentującej oba zestawy chromosomów , zamiast pierwotnie zgłoszonej sekwencji haploidalnej, pozwoliło na uwolnienie pierwszego osobistego genomu. W kwietniu 2008 roku James Watson również została zakończona. W 2009 roku Stephen Quake opublikował własną sekwencję genomu pochodzącą z sekwencera własnego projektu, Heliscope. Zespół ze Stanford kierowany przez Euana Ashleya opublikował ramy medycznej interpretacji ludzkich genomów zaimplementowanych w genomie Quake'a i po raz pierwszy podjął decyzje medyczne oparte na całym genomie. Zespół ten dalej rozszerzył podejście do rodziny West, pierwszej rodziny zsekwencjonowanej w ramach programu osobistego sekwencjonowania genomu firmy Illumina. Od tego czasu opublikowano setki osobistych sekwencji genomu, w tym sekwencje Desmonda Tutu i Paleo-Eskimosa. . W 2012 roku upubliczniono całe sekwencje genomów dwóch trio rodzin spośród 1092 genomów. W listopadzie 2013 r. hiszpańska rodzina udostępniła publicznie cztery osobiste zestawy danych egzomu (około 1% genomu) na licencji domeny publicznej Creative Commons . Projekt Personal Genome Project (rozpoczęty w 2005 r.) jest jednym z nielicznych, które udostępniają publicznie zarówno sekwencje genomu, jak i odpowiadające im fenotypy medyczne.

Sekwencjonowanie poszczególnych genomów ujawniło kolejne poziomy złożoności genetycznej, których wcześniej nie doceniano. Genomika osobista pomogła ujawnić znaczny poziom różnorodności ludzkiego genomu, przypisywany nie tylko SNP, ale także zmianom strukturalnym. Jednak zastosowanie takiej wiedzy w leczeniu chorób iw medycynie jest dopiero na samym początku. Sekwencjonowanie egzomu staje się coraz bardziej popularne jako narzędzie pomocne w diagnozowaniu chorób genetycznych, ponieważ egzom stanowi tylko 1% sekwencji genomowej, ale odpowiada za około 85% mutacji, które znacząco przyczyniają się do choroby.

Ludzkie nokauty

U ludzi nokauty genów występują naturalnie jako nokauty genów heterozygotycznych lub homozygotycznych z utratą funkcji . Te nokauty są często trudne do rozróżnienia, zwłaszcza w heterogenicznych środowiskach genetycznych. Są również trudne do znalezienia, ponieważ występują w niskich częstotliwościach.

Populacje o wysokim poziomie pokrewieństwa rodzicielskiego skutkują większą liczbą nokautów homozygotycznych genów w porównaniu z populacjami niekrewnymi.

Populacje o wysokim wskaźniku pokrewieństwa , takie jak kraje o wysokim wskaźniku małżeństw między kuzynami, wykazują najwyższe częstotliwości nokautów homozygotycznych genów. Takie populacje obejmują populacje Pakistanu, Islandii i Amiszów. Te populacje o wysokim poziomie pokrewieństwa rodzicielskiego były przedmiotem badań nad nokautem na ludziach, które pomogły określić funkcję określonych genów u ludzi. Rozróżniając określone nokauty, naukowcy są w stanie wykorzystać analizy fenotypowe tych osób, aby pomóc scharakteryzować gen, który został wyeliminowany.

Rodowód przedstawiający krycie pierwszego kuzyna (obaj nosiciele niosący heterozygotyczne nokauty kojarzenia, co zaznaczono podwójną linią), co prowadzi do potomstwa posiadającego homozygotyczny nokaut genu

Nokaut w określonych genach może powodować choroby genetyczne, potencjalnie mieć korzystne skutki, a nawet skutkować całkowitym brakiem efektu fenotypowego. Jednak określenie efektu fenotypowego nokautu u ludzi może być trudne. Wyzwania związane z charakteryzowaniem i kliniczną interpretacją nokautów obejmują trudności w wywoływaniu wariantów DNA, określanie zakłócenia funkcji białka (adnotacje) oraz rozważanie wpływu mozaicyzmu na fenotyp.

Jednym z głównych badań, w których badano nokauty u ludzi, jest badanie Pakistan Risk of Myocardial Infarction. Stwierdzono, że osoby posiadające nokaut heterozygotycznego genu utraty funkcji dla APOC3 miały niższe trójglicerydy we krwi po spożyciu posiłku wysokotłuszczowego w porównaniu z osobami bez mutacji. Jednak osoby posiadające homozygotyczne nokauty genu utraty funkcji genu APOC3 wykazywały najniższy poziom trójglicerydów we krwi po teście obciążenia tłuszczem, ponieważ nie wytwarzają funkcjonalnego białka APOC3.

Zaburzenia genetyczne człowieka

Większość aspektów biologii człowieka obejmuje zarówno czynniki genetyczne (odziedziczone), jak i niegenetyczne (środowiskowe). Niektóre odziedziczone zróżnicowanie wpływa na aspekty naszej biologii, które nie mają charakteru medycznego (wzrost, kolor oczu, zdolność odczuwania smaku lub wąchania niektórych związków itp.). Co więcej, niektóre zaburzenia genetyczne powodują chorobę tylko w połączeniu z odpowiednimi czynnikami środowiskowymi (takimi jak dieta). Z tymi zastrzeżeniami zaburzenia genetyczne można opisać jako klinicznie zdefiniowane choroby spowodowane zmiennością sekwencji genomowego DNA. W najprostszych przypadkach zaburzenie może być związane ze zmiennością pojedynczego genu. Na przykład mukowiscydoza jest spowodowana mutacjami w genie CFTR i jest najpowszechniejszym zaburzeniem recesywnym w populacjach kaukaskich z ponad 1300 znanymi różnymi mutacjami.

Choroby powodujące mutacje w określonych genach są zwykle ciężkie pod względem funkcji genów i na szczęście są rzadkie, dlatego zaburzenia genetyczne są podobnie rzadkie indywidualnie. Ponieważ jednak istnieje wiele genów, które mogą zmieniać się, powodując zaburzenia genetyczne, łącznie stanowią one istotny składnik znanych schorzeń, zwłaszcza w medycynie pediatrycznej. Zaburzenia genetyczne scharakteryzowane molekularnie to takie, dla których zidentyfikowano gen przyczynowy. OMIM znajduje się około 2200 takich zaburzeń .

Badania zaburzeń genetycznych są często przeprowadzane za pomocą badań rodzinnych. W niektórych przypadkach stosuje się podejście populacyjne, szczególnie w przypadku tak zwanych populacji założycielskich, takich jak te w Finlandii, francusko-kanadyjskiej, Utah, na Sardynii itp. Diagnozę i leczenie zaburzeń genetycznych zwykle przeprowadza genetyk - lekarz przeszkolony w zakresie genetyki klinicznej/medycznej. Wyniki projektu Human Genome Project prawdopodobnie zwiększą dostępność testów genetycznych w kierunku zaburzeń genetycznych i ostatecznie poprawią leczenie. Rodzice mogą być badani pod kątem chorób dziedzicznych i udzielali porad na temat konsekwencji, prawdopodobieństwa dziedziczenia oraz sposobów uniknięcia lub złagodzenia tego zjawiska u ich potomstwa.

Istnieje wiele różnych rodzajów zmienności sekwencji DNA, od kompletnych dodatkowych lub brakujących chromosomów do zmian pojedynczych nukleotydów. Ogólnie przyjmuje się, że wiele naturalnie występujących zmienności genetycznych w populacjach ludzkich jest fenotypowo neutralnych, tj. ma niewielki lub żaden wykrywalny wpływ na fizjologię osobnika (chociaż mogą istnieć ułamkowe różnice w przystosowaniu określone w ewolucyjnych ramach czasowych). Zaburzenia genetyczne mogą być spowodowane dowolnymi lub wszystkimi znanymi typami zmienności sekwencji. Aby molekularnie scharakteryzować nowe zaburzenie genetyczne, konieczne jest ustalenie związku przyczynowego między określonym wariantem sekwencji genomowej a badaną chorobą kliniczną. Takie badania stanowią domenę genetyki molekularnej człowieka.

Wraz z pojawieniem się Human Genome i International HapMap Project , stało się możliwe zbadanie subtelnych wpływów genetycznych na wiele powszechnych chorób, takich jak cukrzyca, astma, migrena, schizofrenia itp. Chociaż dokonano pewnych powiązań przyczynowych między wariantami sekwencji genomowej w określonych genów i niektórych z tych chorób, często szeroko nagłaśnianych w mediach ogólnych, zazwyczaj nie uważa się ich za zaburzenia genetyczne per se , ponieważ ich przyczyny są złożone i obejmują wiele różnych czynników genetycznych i środowiskowych. W związku z tym w poszczególnych przypadkach może dojść do niezgody, czy określony stan chorobowy należy nazwać zaburzeniem genetycznym.

Dodatkowe wymienione zaburzenia genetyczne to zespół Kallmana i zespół Pfeiffera (gen FGFR1), dystrofia rogówki Fuchsa (gen TCF4), choroba Hirschsprunga (geny RET i FECH), zespół Bardeta-Biedla 1 (geny CCDC28B i BBS1), zespół Bardeta-Biedla 10 (gen BBS10) i twarzowo-łopatkowo-ramiennej dystrofii mięśniowej typu 2 (geny D4Z4 i SMCHD1).

Sekwencjonowanie genomu jest teraz w stanie zawęzić genom do określonych lokalizacji, aby dokładniej znaleźć mutacje, które spowodują zaburzenie genetyczne. Warianty liczby kopii (CNV) i warianty pojedynczych nukleotydów (SNV) można również wykryć w tym samym czasie, co sekwencjonowanie genomu przy użyciu nowszych dostępnych procedur sekwencjonowania, zwanych sekwencjonowaniem nowej generacji (NGS). To analizuje tylko niewielką część genomu, około 1-2%. Wyniki tego sekwencjonowania mogą być wykorzystane do klinicznej diagnozy choroby genetycznej, w tym zespołu Ushera , choroby siatkówki, upośledzenia słuchu, cukrzycy, padaczki, Choroba Leigha , dziedziczne nowotwory, choroby nerwowo-mięśniowe, pierwotne niedobory odporności, ciężki złożony niedobór odporności (SCID) i choroby mitochondriów. NGS można również wykorzystać do identyfikacji nosicieli chorób przed poczęciem. Choroby, które można wykryć w tym sekwencjonowaniu, obejmują chorobę Tay-Sachsa , zespół Blooma , chorobę Gauchera , chorobę Canavan , rodzinną dysautonomię , mukowiscydozę, rdzeniowy zanik mięśni i zespół łamliwego chromosomu X . Sekwencjonowanie następnego genomu można zawęzić, aby konkretnie szukać chorób bardziej rozpowszechnionych w niektórych populacjach etnicznych.

Częstość występowania i powiązany gen/chromosom dla niektórych ludzkich zaburzeń genetycznych
Nieład	Rozpowszechnienie	Zaangażowany chromosom lub gen
Warunki chromosomalne
Zespół Downa	1:600	Chromosom 21
Zespół Klinefeltera	1:500–1000 mężczyzn	Dodatkowy chromosom X
zespół Turnera	1:2000 kobiet	Utrata chromosomu X
Anemia sierpowata	1 na 50 urodzeń w niektórych częściach Afryki; rzadsze gdzie indziej	β-globina (na chromosomie 11)
Zespół Blooma	1:48000 Żydów aszkenazyjskich	BLM
Raki
piersi / jajnika (podatność)	~ 5% przypadków tych typów raka	BRCA1, BRCA2
FAP (dziedziczna niezwiązana z polipowatością coli)	1:3500	APC
syndrom Lyncha	5–10% wszystkich przypadków raka jelita grubego	MLH1, MSH2, MSH6, PMS2
niedokrwistość Fanconiego	1:130000 urodzeń	FANCC
Stany neurologiczne
Choroba Huntingtona	1:20000	polowanie
Choroba Alzheimera - wczesny początek	1:2500	PS1 , PS2 , aplikacja
Tay-Sachs	1:3600 urodzeń u Żydów aszkenazyjskich	gen HEXA (na chromosomie 15)
choroba Canavana	2,5% pochodzenia żydowskiego z Europy Wschodniej	ASPA (na chromosomie 17)
Rodzinna dysautonomia	600 znanych przypadków na całym świecie od czasu odkrycia	Gen IKBKAP (na chromosomie 9)
Zespół łamliwego chromosomu X	1,4:10000 u mężczyzn, 0,9:10000 u kobiet	Gen FMR1 (na chromosomie X)
Mukolipidoza typu IV	1:90 do 1:100 u Żydów aszkenazyjskich	MCOLN1
Inne warunki
Mukowiscydoza	1:2500	CFTR
Dystrofia mięśniowa Duchenne'a	1:3500 chłopców	Dystrofina
Dystrofia mięśniowa Beckera	1,5-6:100000 samców	DMD
Talasemia beta	1:100000	HBB
Wrodzony przerost nadnerczy	1:280 u rdzennych Amerykanów i Eskimosów Yupik 1:15000 u rasy amerykańskiej rasy kaukaskiej	CYP21A2
Choroba spichrzeniowa glikogenu typu I	1:100000 urodzeń w Ameryce	G6PC
Choroba syropu klonowego	1:180000 w USA 1:176 w społecznościach mennonitów/amiszów 1:250000 w Austrii	BCKDHA, BCKDHB, DBT, DLD
Choroba Niemanna-Picka, związana z SMPD1	1200 przypadków na całym świecie	SMPD1
Zespół Ushera	1:23000 w USA 1:28000 w Norwegii 1:12500 w Niemczech	CDH23, CLRN1, DFNB31, GPR98, MYO7A, PCDH15, USH1C, USH1G, USH2A

Ewolucja

Oś czasu Hominina

−10 —

–

−9 —

–

−8 —

–

−7 —

–

−6 —

–

−5 —

–

−4 —

–

−3 —

–

−2 —

–

−1 —

–

0 —

miocen

pliocen

plejstocen

Hominini

Nakalipitek

Uranopitek

Oreopitek

Sahelantrop

Orrorin

Ardipitek

australopitek

Homo habilis

człowiek wyprostowany

Homo bodoensis

Homo sapiens

Neandertalczycy , Denisowianie

←

Wcześniejsze małpy

←

Rozłam goryla

←

Rozszczepienie szympansa

←

Najwcześniejszy dwunożny

←

Najwcześniejsze narzędzia kamienne

←

Rozproszenie poza Afrykę

←

Najwcześniejsze ognisko / gotowanie

←

Najwcześniejsze ubrania

←

Współcześni ludzie

H o m i d s _ _

( milion lat temu )

Porównawcze badania genomiczne genomów ssaków sugerują, że około 5% ludzkiego genomu zostało zachowane przez ewolucję od rozbieżności istniejących linii około 200 milionów lat temu, zawierających ogromną większość genów. Opublikowany szympansa różni się od genomu ludzkiego o 1,23% w bezpośrednich porównaniach sekwencji. Około 20% tej liczby przypada na zmienność w obrębie każdego gatunku, pozostawiając tylko ~1,06% spójnej rozbieżności sekwencji między ludźmi i szympansami we wspólnych genach. Ten nukleotyd przez różnicę nukleotydów jest jednak przyćmiony przez część każdego genomu, która nie jest wspólna, w tym około 6% funkcjonalnych genów, które są unikalne dla ludzi lub szympansów.

Innymi słowy, znaczne obserwowalne różnice między ludźmi a szympansami mogą wynikać w równym lub większym stopniu z różnic w liczbie, funkcji i ekspresji genów na poziomie genomu, a nie ze zmian w sekwencji DNA we wspólnych genach. Rzeczywiście, nawet u ludzi stwierdzono wcześniej niedocenianą ilość zmienności liczby kopii (CNV), która może stanowić nawet 5–15% ludzkiego genomu. Innymi słowy, między ludźmi może istnieć +/- 500 000 000 par zasad DNA, z których niektóre to aktywne geny, inne inaktywowane lub aktywne na różnych poziomach. Pełne znaczenie tego odkrycia dopiero się okaże. Średnio typowy ludzki gen kodujący białko różni się od genu szympansa ortolog tylko przez dwa podstawienia aminokwasów ; prawie jedna trzecia ludzkich genów ma dokładnie taką samą translację białek, jak ich ortologi szympansów. Główną różnicą między tymi dwoma genomami jest ludzki chromosom 2 , który jest równoważny produktowi fuzji chromosomów 12 i 13 szympansa (później przemianowano je odpowiednio na chromosomy 2A i 2B).

Ludzie przeszli niezwykłą utratę genów receptorów węchowych podczas naszej ostatniej ewolucji, co wyjaśnia nasz stosunkowo prymitywny zmysł węchu w porównaniu z większością innych ssaków. Dowody ewolucyjne sugerują, że pojawienie się widzenia kolorów u ludzi i kilku innych gatunków naczelnych zmniejszyło potrzebę węchu.

We wrześniu 2016 r. naukowcy poinformowali, że na podstawie badań genetycznych ludzkiego DNA wszyscy dzisiejsi nie-Afrykanie na świecie można przypisać jednej populacji , która opuściła Afrykę między 50 000 a 80 000 lat temu.

DNA mitochondrialne

Ludzkie mitochondrialne DNA jest przedmiotem ogromnego zainteresowania genetyków, ponieważ niewątpliwie odgrywa rolę w chorobach mitochondrialnych . Rzuca również światło na ewolucję człowieka; na przykład analiza zmienności ludzkiego genomu mitochondrialnego doprowadziła do postulowania niedawnego wspólnego przodka dla wszystkich ludzi w matczynej linii pochodzenia (patrz mitochondrialna Ewa ).

Ze względu na brak systemu sprawdzania błędów kopiowania, mitochondrialne DNA (mtDNA) ma szybsze tempo zmienności niż jądrowe DNA. Ten 20-krotnie wyższy wskaźnik mutacji pozwala na wykorzystanie mtDNA do dokładniejszego śledzenia pochodzenia matki. ^{[ potrzebne źródło ]} Badania mtDNA w populacjach pozwoliły prześledzić starożytne ścieżki migracji, takie jak migracja rdzennych Amerykanów z Syberii czy Polinezyjczyków z południowo-wschodniej Azji . ^{[ potrzebne źródło ]} Został również użyty, aby pokazać, że nie ma śladu neandertalczyka DNA w europejskiej mieszance genów odziedziczonej wyłącznie po matce. Ze względu na restrykcyjny sposób dziedziczenia mtDNA typu „wszystko lub żaden” wynik ten (brak śladu mtDNA neandertalczyka) byłby prawdopodobny, chyba że istniałby duży procent pochodzenia neandertalskiego lub istniała silna pozytywna selekcja dla tego mtDNA. Na przykład, cofając się o 5 pokoleń, tylko 1 z 32 przodków danej osoby przyczynił się do powstania mtDNA tej osoby, więc jeśli jeden z tych 32 był czystym neandertalczykiem, oczekiwane ~ 3% autosomalnego DNA tej osoby byłoby pochodzenia neandertalskiego, ale mieliby ~97% szans na brak śladu neandertalskiego mtDNA. ^{[ potrzebne źródło ]}

Epigenom

Epigenetyka opisuje różnorodne cechy ludzkiego genomu, które wykraczają poza jego pierwotną sekwencję DNA, takie jak upakowanie chromatyny , modyfikacje histonów i metylacja DNA , i które są ważne w regulacji ekspresji genów, replikacji genomu i innych procesów komórkowych. Markery epigenetyczne wzmacniają i osłabiają transkrypcję niektórych genów, ale nie wpływają na rzeczywistą sekwencję nukleotydów DNA. Metylacja DNA jest główną formą kontroli epigenetycznej nad ekspresją genów i jednym z najlepiej zbadanych tematów w epigenetyce. Podczas rozwoju profil metylacji ludzkiego DNA ulega dramatycznym zmianom. We wczesnych komórkach linii zarodkowej genom ma bardzo niski poziom metylacji. Te niskie poziomy ogólnie opisują aktywne geny. W miarę postępu rozwoju znaczniki imprintingu rodzicielskiego prowadzą do zwiększonej aktywności metylacji.

Wzorce epigenetyczne można zidentyfikować między tkankami w obrębie jednostki, a także między samymi osobami. Identyczne geny, które różnią się tylko stanem epigenetycznym, nazywane są epiallelami . Epiallele można podzielić na trzy kategorie: te bezpośrednio określone przez genotyp jednostki, te, na które wpływa genotyp, i te całkowicie niezależne od genotypu. Na epigenom istotny wpływ mają również czynniki środowiskowe. Dieta, toksyny i hormony wpływają na stan epigenetyczny. Badania manipulacji dietą wykazały, że diety z niedoborem metylu są związane z hipometylacją epigenomu. Takie badania ustanawiają epigenetykę jako ważny interfejs między środowiskiem a genomem.

Zobacz też

Linki zewnętrzne

Genetyka człowieka
Podtematy	Ludzki genom Projekt ludzkiego genomu Genetyka ewolucyjna Ludzko-szympans MRCA Genetyka neandertalczyka Projekt genomu neandertalczyka Oś czasu Wariacja genetyczna Rozkład grupy krwi według kraju Genealogiczny test DNA Genealogia genetyczna Rasa i genetyka Ostatnia ewolucja Projekt DNA nazwiska Wzmocnienie genetyczne
Historia genetyczna według regionu	diaspora afrykańska Azja Południowa Indie północna Afryka Wcześni rolnicy anatolijscy z Bliskiego Wschodu Kaukaz Kaukaski łowca-zbieracz Europa Zachodni łowca-zbieracz Wyspy Brytyjskie Iberia Włochy Wschodni Łowca-Zbieracz Azja Środkowa Starożytna północna Eurazja Azja Wschodnia Chiny Azja Południowo-Wschodnia Tajlandia Ameryka Starożytnego Beringa
Genetyka populacji według grup	Europa Baskowie Bośniacy Bułgarzy Chorwaci Rumuni Rosjanie Sami Serbowie Azerbejdżanie Żydzi Turcy MENA Arabowie Egipcjanie Marokańczycy południowa Azja gudżarati Cejlończyk Tamilowie (Sri Lanki) wschodnia Azja Chińczyk Han język japoński Filipińczycy z Azji Południowo-Wschodniej Afryka Subsaharyjska Hutu/Tutsi
Kategoria