miejsce wiązania DNA

Kontakty DNA różnych typów domen wiążących DNA

Miejsca wiązania DNA to rodzaj miejsc wiązania występujących w DNA , w których mogą wiązać się inne cząsteczki. Miejsca wiązania DNA różnią się od innych miejsc wiązania tym, że (1) są częścią sekwencji DNA (np. genomu) i (2) są związane przez białka wiążące DNA . Miejsca wiążące DNA są często związane z wyspecjalizowanymi białkami zwanymi czynnikami transkrypcyjnymi , a zatem są powiązane z regulacją transkrypcji . Suma miejsc wiązania DNA określonego czynnika transkrypcyjnego jest nazywana jego cistromem . Miejsca wiązania DNA obejmują również cele innych białek, takich jak enzymy restrykcyjne , rekombinazy specyficzne dla miejsca (patrz rekombinacja specyficzna dla miejsca ) i metylotransferazy .

Miejsca wiązania DNA można zatem zdefiniować jako krótkie sekwencje DNA (zwykle o długości od 4 do 30 par zasad, ale do 200 pz w przypadku miejsc rekombinacji), które są specyficznie związane przez jedno lub więcej białek wiążących DNA lub kompleksów białkowych. Donoszono, że niektóre miejsca wiążące mogą podlegać szybkim zmianom ewolucyjnym.

Rodzaje miejsc wiążących DNA

Miejsca wiązania DNA można podzielić na kategorie według ich funkcji biologicznej. W ten sposób możemy rozróżnić miejsca wiązania czynnika transkrypcyjnego, miejsca restrykcyjne i miejsca rekombinacji. Niektórzy autorzy zaproponowali, aby miejsca wiązania można było również sklasyfikować zgodnie z ich najwygodniejszym sposobem reprezentacji. Z jednej strony, miejsca restrykcyjne mogą być ogólnie reprezentowane przez sekwencje konsensusowe. Dzieje się tak dlatego, że celują one w większości w identyczne sekwencje, a skuteczność restrykcji gwałtownie spada w przypadku mniej podobnych sekwencji. Z drugiej strony, miejsca wiązania DNA dla danego czynnika transkrypcyjnego są zwykle różne, z różnym stopniem powinowactwa czynnika transkrypcyjnego do różnych miejsc wiązania. Utrudnia to dokładne przedstawienie miejsc wiązania czynnika transkrypcyjnego przy użyciu sekwencji konsensusowych i zazwyczaj są one reprezentowane za pomocą macierzy częstotliwości specyficznych dla pozycji (PSFM), które często są przedstawiane graficznie za pomocą logo sekwencji . Argument ten jest jednak częściowo arbitralny. Enzymy restrykcyjne, takie jak czynniki transkrypcyjne, dają stopniowy, choć ostry zakres powinowactwa do różnych miejsc, a zatem są również najlepiej reprezentowane przez PSFM. Podobnie rekombinazy specyficzne dla miejsca wykazują również zróżnicowany zakres powinowactwa do różnych miejsc docelowych.

Historia i główne techniki eksperymentalne

Istnienie czegoś podobnego do miejsc wiążących DNA podejrzewano na podstawie eksperymentów dotyczących biologii bakteriofaga lambda i regulacji operonu Escherichia coli lac . Miejsca wiązania DNA zostały ostatecznie potwierdzone w obu systemach wraz z pojawieniem się sekwencjonowania DNA . Od tego czasu miejsca wiązania DNA dla wielu czynników transkrypcyjnych, enzymów restrykcyjnych i rekombinaz specyficznych dla miejsca zostały odkryte przy użyciu wielu metod eksperymentalnych. Historycznie, preferowanymi technikami eksperymentalnymi do odkrywania i analizowania miejsc wiązania DNA były test śladu DNAzy i test przesunięcia ruchliwości elektroforetycznej (EMSA). Jednak rozwój mikromacierzy DNA i technik szybkiego sekwencjonowania doprowadził do powstania nowych, masowo równoległych metod identyfikacji miejsc wiązania in vivo, takich jak ChIP-chip i ChIP-Seq . Aby określić ilościowo powinowactwo wiązania białek i innych cząsteczek do określonych miejsc wiązania DNA , stosuje się biofizyczną metodę termoforezy w skali mikro .

Bazy danych

Ze względu na zróżnicowany charakter technik eksperymentalnych stosowanych do określania miejsc wiązania oraz niejednolity zasięg większości organizmów i czynników transkrypcyjnych, nie ma centralnej bazy danych (podobnej do GenBank w National Center for Biotechnology Information) dla miejsc wiązania DNA. Chociaż NCBI rozważa adnotację miejsca wiązania DNA w swoich sekwencjach referencyjnych ( RefSeq ), większość zgłoszeń pomija tę informację. Ponadto, ze względu na ograniczony sukces bioinformatyki w tworzeniu skutecznych narzędzi do przewidywania miejsca wiązania DNA (duże fałszywie dodatnich wyników są często związane z odkrywaniem motywów in silico / metodami przeszukiwania miejsc), nie podjęto systematycznych wysiłków w celu obliczeniowego opisywania tych cech w zsekwencjonowanych genomy.

Istnieje jednak kilka prywatnych i publicznych baz danych poświęconych kompilacji zgłoszonych eksperymentalnie, a czasem przewidywanych komputerowo miejsc wiązania różnych czynników transkrypcyjnych w różnych organizmach. Poniżej znajduje się niewyczerpująca tabela dostępnych baz danych:

Nazwa	Organizmy	Źródło	Dostęp	Adres URL
PlantRegMap	165 gatunków roślin (np. Arabidopsis thaliana, Oryza sativa, Zea mays itp.)	Ekspercka kuracja i projekcja	Publiczny	[1]
JASPAR	Kręgowce, rośliny, grzyby, muchy i robaki	Opieka ekspertów przy wsparciu literatury	Publiczny	[2]
CIS-BP	Wszystkie eukarionty	Eksperymentalne motywy i przewidywania	Publiczny	[3]
Zbierz TF	Prokarionty	Kuratorstwo literatury	Publiczny	[4]
RegPrecise	Prokarionty	Kuracja ekspercka	Publiczny	[5]
RegTransBase	Prokarionty	Ekspert / kurator literatury	Publiczny	[6]
RegulonDB	Escherichia coli	Kuracja ekspercka	Publiczny	[7]
PRODORYK	Prokarionty	Kuracja ekspercka	Publiczny	[8]
TRANSFAC	Ssaki	Ekspert / kurator literatury	Publiczny prywatny	[9]
TRED	Człowiek, mysz, szczur	Prognozy komputerowe, ręczna kuracja	Publiczny	[10]
DBSD	gatunek Drosophila	Literatura/opieka ekspertów	Publiczny	[11]
HOKOMOKO	człowiek, mysz	Literatura/opieka ekspertów	Publiczny	[12] , [13]
MethMotyw	człowiek, mysz	Kuracja ekspercka	Publiczny	[14]

Reprezentacja miejsc wiążących DNA

Zbiór miejsc wiążących DNA, zazwyczaj określany jako motyw wiążący DNA, może być reprezentowany przez sekwencję konsensusową . Ta reprezentacja ma tę zaletę, że jest zwięzła, ale kosztem pominięcia znacznej ilości informacji. Dokładniejszym sposobem przedstawiania miejsc wiązania są macierze częstotliwości specyficzne dla pozycji (PSFM). Te macierze dostarczają informacji o częstości występowania każdej zasady w każdej pozycji motywu wiążącego DNA. PSFM są zwykle tworzone z niejawnym założeniem niezależności pozycyjnej (różne pozycje w miejscu wiązania DNA przyczyniają się niezależnie do funkcji miejsca), chociaż założenie to zostało zakwestionowane w przypadku niektórych miejsc wiązania DNA. Informacje o częstotliwości w PSFM mogą być formalnie interpretowane w ramach Teorii Informacji , co prowadzi do ich graficznej reprezentacji jako logo sekwencji .

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
A	1	0	1	5	32	5	35	23	34	14	43	13	34	4	52	3
C	50	1	0	1	5	6	0	4	4	13	3	8	17	51	2	0
G	0	0	54	15	5	5	12	2	7	1	1	3	1	0	1	52
T	5	55	1	35	14	40	9	27	11	28	9	32	4	1	1	1
Suma	56	56	56	56	56	56	56	56	56	56	56	56	56	56	56	56

PSFM dla represora transkrypcji LexA pochodzącego z 56 miejsc wiążących LexA przechowywanych w Prodoric. Częstotliwości względne uzyskuje się, dzieląc zliczenia w każdej komórce przez całkowitą liczbę (56)

Wyszukiwanie obliczeniowe i wykrywanie miejsc wiążących

W bioinformatyce można rozróżnić dwa odrębne problemy dotyczące miejsc wiążących DNA: poszukiwanie dodatkowych członków znanego motywu wiążącego DNA (problem przeszukiwania miejsca) i odkrywanie nowych motywów wiążących DNA w zbiorach funkcjonalnie powiązanych sekwencji (problem odkrywania motywu sekwencji ) . Zaproponowano wiele różnych metod wyszukiwania miejsc wiązania. Większość z nich opiera się na zasadach teorii informacji i ma dostępne serwery WWW (Yellaboina)(Munch), podczas gdy inni autorzy uciekają się do uczenia maszynowego , takich jak sztuczne sieci neuronowe . Dostępnych jest również mnóstwo algorytmów do motywów sekwencji . Metody te opierają się na hipotezie, że zestaw sekwencji ma wspólny motyw wiążący ze względów funkcjonalnych. Metody odkrywania motywów wiążących można z grubsza podzielić na enumeratywne, deterministyczne i stochastyczne. MEME i Consensus są klasycznymi przykładami optymalizacji deterministycznej, podczas gdy próbnik Gibbsa jest konwencjonalną implementacją czysto stochastycznej metody odkrywania motywu wiążącego DNA. Innym przykładem tej klasy metod jest SeSiMCMC, która koncentruje się na słabych miejscach TFBS z symetrią. Podczas gdy metody wyliczeniowe często odwołują się do w wyrażeniach regularnych , PSFM i ich formalne traktowanie w ramach metod teorii informacji jest reprezentacją z wyboru zarówno dla metod deterministycznych, jak i stochastycznych. Metody hybrydowe, np. ChIPMunk, łączące zachłanną optymalizację z podpróbkowaniem, również wykorzystują PSFM. Niedawne postępy w sekwencjonowaniu doprowadziły do wprowadzenia genomiki porównawczej do odkrywania motywów wiążących DNA, czego przykładem jest PhyloGibbs.

Bardziej złożone metody wyszukiwania miejsc wiązania i odkrywania motywów opierają się na układaniu zasad w stosy i innych interakcjach między zasadami DNA, ale ze względu na małe rozmiary próbek typowo dostępnych dla miejsc wiązania w DNA, ich skuteczność wciąż nie jest w pełni wykorzystana. Przykładem takiego narzędzia jest ULPB

Zobacz też

Linki zewnętrzne

ENCODE threads Explorer Motywy czynników transkrypcyjnych w Naturze
Ręcznie wyselekcjonowane motywy wiążące TF dla 157 gatunków roślin