Długi niekodujący RNA
Długie niekodujące RNA ( długie ncRNA , lncRNA ) to rodzaj RNA , ogólnie definiowany jako transkrypty składające się z ponad 200 nukleotydów , które nie ulegają translacji na białko. Ta arbitralna granica odróżnia długie ncRNA od małych niekodujących RNA , takich jak mikroRNA (miRNA), małe interferujące RNA (siRNA), RNA oddziałujące z Piwi (piRNA), małe jądrowe RNA (snoRNA) i inne krótkie RNA. Długie interwencyjne / międzygenowe niekodujące RNA (lincRNA) to sekwencje lncRNA, które nie nakładają się na geny kodujące białka.
Długie niekodujące RNA obejmują międzygenowe lincRNA, intronowe ncRNA oraz sensowne i antysensowne lncRNA, z których każdy wykazuje różne pozycje genomowe w stosunku do genów i egzonów .
Obfitość
W 2007 roku badanie wykazało, że tylko jedna piąta transkrypcji w ludzkim genomie jest związana z genami kodującymi białka, co wskazuje na co najmniej cztery razy dłuższe niekodujące niż kodujące sekwencje RNA. Projekty sekwencjonowania komplementarnego DNA (cDNA) na dużą skalę, takie jak FANTOM , ujawniają złożoność tej transkrypcji. W ramach projektu FANTOM3 zidentyfikowano ~35 000 niekodujących transkryptów, które mają wiele sygnatur informacyjnych RNA , w tym czapeczki 5' , splicing i poliadenylację , ale mają niewiele otwartych ramek odczytu (ORF) lub nie mają ich wcale. Liczba ta reprezentuje konserwatywne niższe oszacowanie, ponieważ pominięto wiele transkryptów singletonowych i transkryptów niepoliadenylowanych ( dane z tablicy kafelkowej pokazują, że ponad 40% transkryptów nie jest poliadenylowanych). Identyfikacja ncRNA w tych bibliotekach cDNA jest trudna, ponieważ odróżnienie transkryptów kodujących białka od transkryptów niekodujących może być trudne. W wielu badaniach zasugerowano, że jądra i tkanki nerwowe wyrażają największą ilość długich niekodujących RNA ze wszystkich tkanki . Za pomocą FANTOM5 zidentyfikowano 27 919 długich ncRNA w różnych ludzkich źródłach.
Ilościowo lncRNA wykazują około 10-krotnie mniejszą liczebność niż mRNA , co tłumaczy się wyższą zmiennością między komórkami poziomów ekspresji genów lncRNA w poszczególnych komórkach w porównaniu z genami kodującymi białka. Ogólnie rzecz biorąc, większość (~ 78%) lncRNA jest scharakteryzowana jako tkanki , w przeciwieństwie do zaledwie ~ 19% mRNA. Oprócz wyższej specyficzności tkankowej, lncRNA charakteryzują się wyższą etapów rozwojowych i specyficznością podtypów komórek w tkankach takich jak ludzka kora nowa i innych części mózgu, regulując prawidłowy rozwój i funkcjonowanie mózgu. W 2018 roku kompleksowa integracja lncRNA z istniejących baz danych, opublikowanej literatury i nowych zestawów RNA oparta na RNA-seq ujawniła, że u ludzi występuje 270 044 transkryptów lncRNA.
W porównaniu do ssaków stosunkowo niewiele badań koncentrowało się na rozpowszechnieniu lncRNA w roślinach . Jednak obszerne badanie obejmujące 37 wyższych gatunków roślin i sześć alg zidentyfikowało ~ 200 000 niekodujących transkryptów przy użyciu podejścia in silico , które również ustanowiło powiązaną bazę danych Green Non-Coding Database ( GreeNC ), repozytorium roślinnych lncRNA.
Organizacja genomu
W 2005 roku krajobraz genomu ssaków został opisany jako liczne „ogniska” transkrypcji oddzielone długimi odcinkami przestrzeni międzygenowej . Podczas gdy niektóre długie ncRNA znajdują się w odcinkach międzygenowych, większość nakłada się na siebie sensownie i antysensownie transkrypty, które często zawierają geny kodujące białka, co prowadzi do złożonej hierarchii nakładających się izoform. Sekwencje genomowe w tych ogniskach transkrypcyjnych są często wspólne dla wielu kodujących i niekodujących transkryptów w kierunkach sensownych i antysensownych . -kodowanie cDNA. Chociaż obfitość i zachowanie tych układów sugeruje, że mają one znaczenie biologiczne, złożoność tych ognisk udaremnia łatwą ocenę.
Konsorcjum GENCODE zebrało i przeanalizowało obszerny zestaw adnotacji ludzkiego lncRNA oraz ich organizację genomową , modyfikacje, lokalizacje komórkowe i profile ekspresji tkankowej. Ich analiza wskazuje, że ludzkie lncRNA wykazują skłonność do transkryptów dwueksonowych .
Oprogramowanie do identyfikacji
Nazwa | Grupa taksonomiczna | serwer internetowy | Magazyn | Plik wejściowy | Główny model / algorytm | Zestaw treningowy | Rok opublikowany | Odniesienie |
---|---|---|---|---|---|---|---|---|
DeepPlnc | Zakład | Serwer DeepPlnc | DeepPlnc | SZYBKO | Sieć neuronowa | Tak | 2022 | |
RNAsamba | Wszystko | RNAsamba | RNAsamba | SZYBKO | Sieć neuronowa | Tak | 2020 | |
LGC | Roślina, zwierzę | LGC | SZYBKO, ŁÓŻKO, GTF | Związek między długością ORF a zawartością GC | NIE | 2019 | ||
CPAT | Człowiek, mucha, mysz, danio pręgowany | CPAT | CPAT | SZYBKO/ŁÓŻKO | Regresja logistyczna | Tak | 2013 | |
PRZYCHODZIĆ | Roślina, człowiek, mysz, mucha, robak | PRZYCHODZIĆ | PRZYCHODZIĆ | GTF | Przypadkowy las | Tak | 2017 | |
CNCI | Roślina, zwierzę | NA | FASTA, GTF | Maszyna wektorów nośnych | NIE | 2013 | ||
PLEK | Kręgowiec | NA | PLEK | SZYBKO | Maszyna wektorów nośnych | NIE | 2014 | |
FEELnc | Wszystko | NA | FEELnc | FASTA, GTF | Przypadkowy las | Tak | 2017 | |
PhyloCSF | Kręgowce, muchy, komary, drożdże, robaki | NA | SZYBKO | Model kodonów filogenetycznych | Tak | 2011 | ||
sprytny | Wszystko | NA | sprytny | SZYBKO, ŁÓŻKO | Konserwacja ewolucyjna | Tak | 2016 |
Tłumaczenie
Odbyła się poważna debata na temat tego, czy lncRNA zostały błędnie zanotowane i czy faktycznie kodują białka . Stwierdzono, że kilka lncRNA w rzeczywistości koduje peptydy o biologicznie istotnej funkcji. Badania profilowania rybosomów sugerują, że od 40% do 90% opisanych lncRNA jest w rzeczywistości translowanych , chociaż nie ma zgody co do prawidłowej metody analizy danych profilowania rybosomów. Ponadto uważa się, że wiele peptydów wytwarzanych przez lncRNA może być wysoce niestabilnych i pozbawionych funkcji biologicznych.
Ochrona
Wstępne badania nad konserwacją lncRNA wykazały, że jako klasa zostały one wzbogacone o konserwowane elementy sekwencji, zubożone w podstawienia i współczynniki insercji / delecji oraz zubożone w rzadkie warianty częstotliwości, co wskazuje na selekcję oczyszczającą utrzymującą funkcję lncRNA. Jednak dalsze badania kręgowców ujawniły, że chociaż lncRNA są konserwowane w sekwencji, nie są konserwowane w transkrypcji . Innymi słowy, nawet jeśli sekwencja ludzkiego lncRNA jest zachowana u innego gatunku kręgowców, często nie ma transkrypcji lncRNA w ortologicznym region genomowy. Niektórzy twierdzą, że obserwacje te sugerują niefunkcjonalność większości lncRNA, podczas gdy inni twierdzą, że mogą one wskazywać na szybką selekcję adaptacyjną specyficzną dla gatunku .
Chociaż obrót transkrypcji lncRNA jest znacznie wyższy niż początkowo oczekiwano, należy zauważyć, że nadal setki lncRNA są konserwowane na poziomie sekwencji. Podjęto kilka prób nakreślenia różnych kategorii sygnatur selekcyjnych obserwowanych wśród lncRNA, w tym: lncRNA z silną konserwacją sekwencji na całej długości genu , lncRNA, w których tylko część transkryptu (np. koniec 5' , miejsca splicingowe ) jest konserwowane i lncRNA, które są transkrybowane z syntenu regiony genomu, ale nie mają rozpoznawalnego podobieństwa sekwencji. Ponadto podjęto próby zidentyfikowania konserwatywnych struktur drugorzędowych w lncRNA, chociaż badania te ustąpiły obecnie miejsca sprzecznym wynikom.
Funkcje
Pomimo zgromadzonych dowodów na to, że większość długich niekodujących RNA u ssaków prawdopodobnie będzie funkcjonalna, wykazano, że tylko stosunkowo niewielka ich część ma znaczenie biologiczne. Niektóre lncRNA zostały funkcjonalnie opisane w LncRNAdb (baza danych opisujących lncRNA w literaturze), przy czym większość z nich została opisana u ludzi . Funkcje innych lncRNA z dowodami eksperymentalnymi zostały wyselekcjonowane przez społeczność w LncRNAWiki ( wiki , publicznie edytowalna i otwarta platforma do kuracji społecznościowej ludzkich lncRNA) w odniesieniu do mechanizmów funkcjonalnych i związków chorobowych, do których można również uzyskać dostęp w LncBook. Zgodnie z kuracją mechanizmów funkcjonalnych lncRNA na podstawie literatury, lncRNA są szeroko zgłaszane jako zaangażowane w regulację transkrypcji . Dalsze badanie sekwencjonowania na dużą skalę dostarcza dowodów na to, że wiele transkryptów uważanych za lncRNA może w rzeczywistości ulec translacji do białek .
W regulacji transkrypcji genów
W transkrypcji specyficznej dla genu
U eukariontów transkrypcja RNA jest ściśle regulowanym procesem. Niekodujące RNA działają na różne aspekty tego procesu, celując w modulatory transkrypcji, polimerazę RNA (RNAP) II , a nawet dupleks DNA w celu regulacji ekspresji genów.
NcRNA modulują transkrypcję za pomocą kilku mechanizmów, w tym działając jako współregulatory, modyfikując aktywność czynnika transkrypcyjnego lub regulując asocjację i aktywność koregulatorów. Na przykład niekodujący RNA Evf-2 działa jako koaktywator homeoboksowego czynnika transkrypcyjnego Dlx2 , który odgrywa ważną rolę w rozwoju przodomózgowia i neurogenezie . Sonic hedgehog indukuje transkrypcję Evf-2 z ultra-konserwatywnego elementu znajdującego się pomiędzy Dlx5 i Dlx6 podczas rozwoju przodomózgowia. Evf-2 następnie rekrutuje czynnik transkrypcyjny Dlx2 do tego samego ultra-konserwatywnego elementu, dzięki czemu Dlx2 następnie indukuje ekspresję Dlx5. Istnienie innych podobnych ultra- lub wysoce konserwatywnych elementów w genomie ssaków, które są zarówno transkrybowane, jak i spełniają funkcje wzmacniające, sugeruje, że Evf-2 może ilustrować uogólniony mechanizm, który reguluje geny rozwojowe ze złożonymi wzorami ekspresji podczas wzrostu kręgowców. Rzeczywiście, wykazano, że transkrypcja i ekspresja podobnych niekodujących ultrakonserwatywnych elementów jest nieprawidłowa w ludzkiej białaczce i przyczyniać się do apoptozy w komórkach raka okrężnicy , co sugeruje ich udział w nowotworzeniu .
ekspresji genów kodujących sąsiednie białka . Na przykład rozbieżne lncRNA, które są transkrybowane w kierunku przeciwnym do pobliskich genów kodujących białka (~ 20% wszystkich lncRNA w genomach ssaków) prawdopodobnie regulują transkrypcję pobliskich sąsiednich niezbędnych rozwojowych genów regulacyjnych w komórkach pluripotencjalnych .
Białko wiążące RNA TLS wiąże i hamuje aktywność białka wiążącego CREB i acetylotransferazy histonowej p300 na docelowym represji genu, cyklinie D1 . Rekrutacja TLS do promotora cykliny D1 jest kierowana przez długie ncRNA wyrażane na niskim poziomie i związane z regionami regulatorowymi 5' w odpowiedzi na sygnały uszkodzenia DNA. Co więcej, te lokalne ncRNA działają wspólnie jako ligandy modulujące aktywność TLS. W szerokim znaczeniu mechanizm ten umożliwia komórce wykorzystanie białek wiążących RNA , które tworzą jedną z największych klas w proteomie ssaków i integrują swoją funkcję w programach transkrypcyjnych. Wykazano, że powstające długie ncRNA zwiększają aktywność białka wiążącego CREB, co z kolei zwiększa transkrypcję tego ncRNA. Badanie wykazało, że lncRNA w kierunku antysensownym apolipoproteiny A1 (APOA1) reguluje transkrypcję APOA1 poprzez modyfikacje epigenetyczne .
Niedawne dowody wskazują na możliwość, że w transkrypcji genów, które uciekają z inaktywacji X, może pośredniczyć ekspresja długiego niekodującego RNA w uciekających domenach chromosomalnych .
Regulowanie podstawowej maszynerii transkrypcyjnej
NcRNA celują również w ogólne czynniki transkrypcyjne wymagane do transkrypcji RNAP II wszystkich genów. Te ogólne czynniki obejmują składniki kompleksu inicjacyjnego , które gromadzą się na promotorach lub biorą udział w wydłużaniu transkrypcji. ncRNA transkrybowany z górnego mniejszego promotora genu reduktazy dihydrofolianowej (DHFR) tworzy stabilny tripleks RNA-DNA w obrębie głównego promotora DHFR, aby zapobiec wiązaniu transkrypcyjnego kofaktora TFIIB . Ten nowy mechanizm regulacji ekspresji genów może stanowić szeroko rozpowszechnioną metodę kontrolowania wykorzystania promotora, ponieważ w chromosomie eukariotycznym istnieją tysiące tripleksów RNA-DNA . U1 ncRNA może indukować transkrypcję poprzez wiązanie i stymulowanie TFIIH do fosforylacji C-końcowej domeny RNAP II. W przeciwieństwie do ncRNA 7SK jest w stanie tłumić wydłużanie transkrypcji, tworząc w połączeniu z HEXIM1 / 2 nieaktywny kompleks, który zapobiega fosforylacji PTEFb C-końcowa domena RNAP II, hamująca globalne wydłużenie w stresujących warunkach. Te przykłady, które omijają określone tryby regulacji w poszczególnych promotorach, zapewniają sposób szybkiego wpływania na globalne zmiany w ekspresji genów .
Zdolność do szybkiego pośredniczenia w globalnych zmianach jest również widoczna w szybkiej ekspresji niekodujących, powtarzalnych sekwencji . Krótkie rozproszone jądrowe ( SINE ) elementy Alu u ludzi i analogiczne elementy B1 i B2 u myszy stały się najobficiej występującymi ruchomymi elementami w genomach, stanowiąc odpowiednio ~ 10% ludzkiego i ~ 6% genomu myszy . Elementy te są transkrybowane jako ncRNA przez RNAP III w odpowiedzi na stres środowiskowy, taki jak szok cieplny , gdzie następnie wiążą się z RNAP II z wysokim powinowactwem i zapobiegają tworzeniu się aktywnych kompleksów preinicjacyjnych. Pozwala to na szeroką i szybką represję ekspresji genów w odpowiedzi na stres.
Analiza sekwencji funkcjonalnych w transkryptach Alu RNA pozwoliła opracować modułową strukturę analogiczną do organizacji domen w białkowych czynnikach transkrypcyjnych. Alu RNA zawiera dwa ramiona, z których każde może wiązać jedną cząsteczkę RNAP II, a także dwie domeny regulatorowe, które są odpowiedzialne za represję transkrypcji RNAP II in vitro. Te dwie luźno ustrukturyzowane domeny mogą być nawet łączone z innymi ncRNA, takimi jak elementy B1, aby nadać im represyjną rolę. Obfitość i rozmieszczenie elementów Alu i podobnych elementów powtarzalnych w całym genomie ssaka może być częściowo spowodowane dokooptowaniem tych domen funkcjonalnych do innych długich ncRNA podczas ewolucji, przy czym obecność funkcjonalnych domen sekwencji powtórzeń jest wspólną cechą kilku znanych długich ncRNA, w tym Kcnq1ot1 , Xlsirt i Xist .
Oprócz szoku cieplnego ekspresja elementów SINE (w tym RNA Alu, B1 i B2) wzrasta podczas stresu komórkowego, takiego jak infekcja wirusowa, w niektórych komórkach nowotworowych , gdzie mogą one podobnie regulować globalne zmiany w ekspresji genów. Zdolność Alu i B2 RNA do bezpośredniego wiązania się z RNAP II zapewnia szeroki mechanizm represji transkrypcji. Niemniej jednak istnieją specyficzne wyjątki od tej globalnej odpowiedzi, w których RNA Alu lub B2 nie znajdują się w aktywowanych promotorach genów poddawanych indukcji, takiej jak szok cieplny geny. Ta dodatkowa hierarchia regulacji, która zwalnia poszczególne geny z uogólnionej represji, obejmuje również długi ncRNA, RNA-1 szoku cieplnego (HSR-1). Argumentowano, że HSR-1 jest obecny w komórkach ssaków w stanie nieaktywnym, ale pod wpływem stresu jest aktywowany w celu wywołania ekspresji genów szoku cieplnego . Ta aktywacja obejmuje zmianę konformacyjną HSR-1 w odpowiedzi na wzrost temperatury, umożliwiając jego interakcję z aktywatorem transkrypcji HSF-1, który trimeryzuje i indukuje ekspresję genów szoku cieplnego. W szerokim znaczeniu przykłady te ilustrują a obwód regulacyjny zagnieżdżony w ncRNA, przy czym RNA Alu lub B2 tłumią ogólną ekspresję genów , podczas gdy inne ncRNA aktywują ekspresję określonych genów .
Transkrybowane przez polimerazę RNA III
Wiele ncRNA, które oddziałują z ogólnymi czynnikami transkrypcyjnymi lub samym RNAP II (w tym RNA 7SK , Alu oraz B1 i B2) jest transkrybowanych przez RNAP III , rozprzęgając ich ekspresję od RNAP II, który regulują. RNAP III transkrybuje również inne ncRNA, takie jak BC2, BC200 oraz niektóre mikroRNA i snoRNA, oprócz genów ncRNA utrzymujących porządek , takich jak tRNA , 5S rRNA i snRNA . Istnienie transkryptomu ncRNA zależnego od RNAP III, który reguluje jego odpowiednik zależny od RNAP II, potwierdza odkrycie zestawu ncRNA transkrybowanych przez RNAP III z homologią sekwencji do genów kodujących białka. To skłoniło autorów do założenia funkcjonalnej sieci regulacyjnej „kogen/gen”, pokazując, że jeden z tych ncRNA, 21A, reguluje ekspresję swojego antysensownego genu partnera, CENP- F w trans.
W regulacji posttranskrypcyjnej
Oprócz regulacji transkrypcji, ncRNA kontrolują również różne aspekty przetwarzania mRNA po transkrypcji . Podobnie jak małe regulatorowe RNA, takie jak mikroRNA i snoRNA , funkcje te często obejmują komplementarne parowanie zasad z docelowym mRNA. Tworzenie dupleksów RNA między komplementarnymi ncRNA i mRNA może maskować kluczowe elementy w mRNA wymagane do wiązania czynników działających w trans, potencjalnie wpływając na każdy etap potranskrypcyjnej ekspresji genów , w tym przetwarzanie pre-mRNA i splicing , transport, translacja i degradacja.
W splicingu
Splicing mRNA może indukować jego translację i funkcjonalnie różnicować repertuar kodowanych przez niego białek . MRNA Zeb2 wymaga zachowania intronu 5'UTR , który zawiera wewnętrzne miejsce wejścia rybosomu dla wydajnej translacji. Zatrzymanie intronu zależy od ekspresji antysensownego , który uzupełnia intronowe miejsce splicingowe 5' . Dlatego ektopowa ekspresja transkryptu antysensownego tłumi splicing i indukuje translację mRNA Zeb2 podczas rozwój mezenchymalny . Podobnie, ekspresja nakładającego się antysensownego transkryptu Rev-ErbAa2 kontroluje alternatywny splicing mRNA receptora hormonu tarczycy ErbAa2, tworząc dwie antagonistyczne izoformy.
W tłumaczeniu
NcRNA może również wywierać dodatkowe naciski regulacyjne podczas translacji , właściwość szczególnie wykorzystywana w neuronach , gdzie translacja dendrytyczna lub aksonalna mRNA w odpowiedzi na aktywność synaptyczną przyczynia się do zmian plastyczności synaptycznej i przebudowy sieci neuronowych. RNAP III transkrybowane BC1 i BC200 ncRNA, które wcześniej pochodziły z tRNA , ulegają ekspresji w mysim i ludzkim ośrodkowym układzie nerwowym odpowiednio. Ekspresja BC1 jest indukowana w odpowiedzi na aktywność synaptyczną i synaptogenezę i jest specyficznie ukierunkowana na dendryty w neuronach. Komplementarność sekwencji między BC1 a regionami różnych mRNA specyficznych dla neuronów również sugeruje rolę BC1 w ukierunkowanej represji translacyjnej. Rzeczywiście, niedawno wykazano, że BC1 jest związany z represją translacyjną w dendrytach w celu kontrolowania wydajności transmisji za pośrednictwem receptora dopaminy D2 w prążkowiu , a myszy z usuniętym RNA BC1 wykazują zmiany behawioralne przy zmniejszonej eksploracji i zwiększonym lęku .
W regulacji genów kierowanej przez siRNA
Oprócz maskowania kluczowych elementów w obrębie jednoniciowego RNA , tworzenie dwuniciowych dupleksów RNA może również zapewnić substrat do wytwarzania endogennych siRNA (endo-siRNA) u Drosophila i mysich oocytów . Łączenie komplementarnych sekwencji, takich jak regiony antysensowne lub powtarzalne między transkryptami , tworzy dupleks RNA, który może być przetwarzany przez Dicer-2 w endo-siRNA. Również długie ncRNA, które tworzą rozszerzone wewnątrzcząsteczkowe spinki do włosów, mogą być przetwarzane w siRNA, co przekonująco ilustrują transkrypty esi-1 i esi-2. Endo-siRNA wygenerowane z tych transkryptów wydają się szczególnie przydatne w hamowaniu rozprzestrzeniania się ruchome elementy transpozonowe w genomie linii zarodkowej. Jednak generowanie endo-siRNA z antysensownych transkryptów lub pseudogenów może również wyciszyć ekspresję ich funkcjonalnych odpowiedników poprzez kompleksy efektorowe RISC , działając jako ważny węzeł, który integruje różne tryby regulacji długiego i krótkiego RNA, czego przykładem są Xist i Tsix (patrz wyżej).
W regulacji epigenetycznej
Modyfikacje epigenetyczne, w tym metylacja histonów i DNA , acetylacja i sumoilacja histonów , wpływają na wiele aspektów biologii chromosomów, w tym przede wszystkim na regulację dużej liczby genów poprzez przebudowę szerokich domen chromatyny . Chociaż od pewnego czasu wiadomo, że RNA jest integralnym składnikiem chromatyny, dopiero niedawno zaczynamy doceniać środki, za pomocą których RNA bierze udział w szlakach modyfikacji chromatyny. Na przykład Oplr16 epigenetycznie indukuje aktywację komórek macierzystych podstawowych czynników poprzez koordynację pętli wewnątrzchromosomalnych i rekrutację demetylazy DNA TET2 .
U Drosophila długie ncRNA indukują ekspresję genu homeotycznego, Ubx , poprzez rekrutację i kierowanie funkcjami modyfikującymi chromatynę białka Trithorax Ash1 do elementów regulatorowych Hox . Podobne modele zaproponowano u ssaków, gdzie uważa się, że silne mechanizmy epigenetyczne leżą u podstaw embrionalnych profili ekspresji genów Hox, które utrzymują się podczas rozwoju człowieka. Rzeczywiście, ludzkie geny Hox są związane z setkami ncRNA, które są sekwencyjnie wyrażane wzdłuż osi przestrzennej i czasowej rozwoju człowieka i definiują domeny chromatyny zróżnicowanej metylacji histonów i polimerazy RNA . Jeden ncRNA, określany jako HOTAIR , który pochodzi z locus HOXC, hamuje transkrypcję na 40 kb locus HOXD, zmieniając stan trimetylowania chromatyny. Uważa się, że HOTAIR osiąga to poprzez kierowanie działaniem Polycomb w układzie trans w celu regulowania stanu epigenetycznego komórek i późniejszej ekspresji genów . Składniki kompleksu Polycomb, w tym Suz12 , EZH2 i EED zawierają domeny wiążące RNA, które mogą potencjalnie wiązać HOTAIR i prawdopodobnie inne podobne ncRNA. Ten przykład dobrze ilustruje szerszy temat, w którym ncRNA rekrutują funkcję ogólnego zestawu białek modyfikujących chromatynę do określonych loci genomowych , podkreślając złożoność niedawno opublikowanych map genomowych. Rzeczywiście, występowanie długich ncRNA związanych z genami kodującymi białka może przyczyniać się do zlokalizowanych wzorców modyfikacji chromatyny, które regulują ekspresję genów podczas rozwoju. Na przykład większość genów kodujących białka mają partnerów antysensownych, w tym wiele genów supresorowych nowotworów, które są często wyciszane przez mechanizmy epigenetyczne w raku. W niedawnym badaniu zaobserwowano odwrotny profil ekspresji genu p15 i antysensownego ncRNA w białaczce. Szczegółowa analiza wykazała, że antysensowny ncRNA p15 ( CDKN2BAS ) był w stanie indukować zmiany w statusie heterochromatyny i metylacji DNA p15 za pomocą nieznanego mechanizmu, regulując w ten sposób ekspresję p15. Dlatego błędna ekspresja powiązanych antysensownych ncRNA może następnie wyciszyć gen supresorowy guza przyczyniający się do raka .
Nadruk
chromatyny kierowanej przez ncRNA było po raz pierwszy widocznych w ramach zjawiska imprintingu , w którym tylko jeden allel genu ulega ekspresji z chromosomu matczynego lub ojcowskiego . Ogólnie rzecz biorąc, odciśnięte geny są skupione razem na chromosomach, co sugeruje, że mechanizm imprintingu działa na lokalne domeny chromosomów, a nie na pojedyncze geny. Klastry te są również często związane z długimi ncRNA, których ekspresja jest skorelowana z represją połączonego genu kodującego białko na tym samym allelu. Rzeczywiście, szczegółowa analiza ujawniła kluczową rolę ncRNA Kcnqot1 i Igf2r /Air w kierowaniu imprintingiem.
Prawie wszystkie geny w loci Kcnq1 są dziedziczone po matce, z wyjątkiem wyrażanego przez ojca antysensownego ncRNA Kcnqot1. Myszy transgeniczne z obciętym Kcnq1ot nie wyciszają sąsiednich genów, co sugeruje, że Kcnqot1 ma kluczowe znaczenie dla imprintingu genów na chromosomie ojcowskim. Wydaje się, że Kcnqot1 jest w stanie skierować trimetylację lizyny 9 ( H3K9me3 ) i 27 histonu 3 ( H3K27me3 ) do centrum imprintingu, które zachodzi na promotor Kcnqot1 i faktycznie znajduje się w eksonie sensownym Kcnq1. Podobne do HOTAIR (patrz wyżej), kompleksy Eed-Ezh2 Polycomb są rekrutowani do ojcowskiego chromosomu Kcnq1 loci, prawdopodobnie przez Kcnqot1, gdzie mogą pośredniczyć w wyciszaniu genów poprzez represyjną metylację histonów . Różnie metylowane centrum imprintingu nakłada się również na promotor długiego antysensownego ncRNA Air, który jest odpowiedzialny za wyciszanie sąsiednich genów w locus Igf2r na ojcowskim chromosomie. Obecność specyficznej dla allelu metylacji histonów w locus Igf2r sugeruje, że Air pośredniczy również w wyciszaniu poprzez modyfikację chromatyny.
Inaktywacja chromosomów Xist i X
Inaktywacja chromosomu X u samic ssaków łożyskowych jest kierowana przez jeden z najwcześniejszych i najlepiej scharakteryzowanych długich ncRNA, Xist . Ekspresja Xist z przyszłego nieaktywnego chromosomu X i późniejsze powlekanie nieaktywnego chromosomu X zachodzi podczas wczesnego embrionalnych komórek macierzystych . Po ekspresji Xist następują nieodwracalne warstwy modyfikacji chromatyny, które obejmują utratę acetylacji histonów (H3K9) i metylację H3K4, które są związane z aktywną chromatyną, oraz indukcję represyjnych modyfikacji chromatyny w tym hipoacetylacja H4, trimetylacja H3K27 , hipermetylacja H3K9 i monometylacja H4K20 , a także monoubikwitylacja H2AK119. Modyfikacje te zbiegają się z wyciszeniem transkrypcji genów sprzężonych z X. Xist RNA lokalizuje również makroH2A wariantu histonu na nieaktywnym chromosomie X. Istnieją dodatkowe ncRNA, które są również obecne w loci Xist, w tym antysensowny transkrypt Tsix , który jest wyrażany z przyszłego aktywnego chromosomu i zdolny do tłumienia ekspresji Xist przez generowanie endogennego siRNA. Razem te ncRNA zapewniają, że tylko jeden chromosom X jest aktywny u samic ssaków.
Telomeryczne niekodujące RNA
Telomery tworzą końcowy region chromosomów ssaków i są niezbędne dla stabilności i starzenia oraz odgrywają główną rolę w chorobach takich jak rak . Telomery od dawna uważano za obojętne transkrypcyjnie kompleksy DNA-białko, dopóki pod koniec 2000 roku nie wykazano, że powtórzenia telomerowe mogą być transkrybowane jako telomerowe RNA (TelRNA) lub RNA zawierające powtórzenia telomerowe . Te ncRNA są niejednorodne pod względem długości, transkrybowane z kilku loci subtelomerowych i fizycznie lokalizują się w telomerach. Ich związek z chromatyną, co sugeruje udział w regulacji specyficznych dla telomerów modyfikacji heterochromatyny, jest tłumiony przez białka SMG, które chronią końce chromosomów przed utratą telomerów. Ponadto blokuje TelRNA telomerazy in vitro i dlatego może regulować aktywność telomerazy. Chociaż wcześnie, badania te sugerują udział telomerowych ncRNA w różnych aspektach biologii telomerów.
W regulacji czasu replikacji DNA i stabilności chromosomów
Asynchronicznie replikujące się autosomalne RNA (ASAR) to bardzo długie (~ 200 kb) niekodujące RNA, które nie są składane, nie są poliadenylowane i są wymagane do normalnego czasu replikacji DNA i stabilności chromosomu. Delecja któregokolwiek z loci genetycznych zawierających ASAR6, ASAR15 lub ASAR6-141 skutkuje tym samym fenotypem opóźnionego czasu replikacji i opóźnionej kondensacji mitotycznej (DRT/DMC) całego chromosomu. DRT/DMC skutkuje błędami segregacji chromosomów, które prowadzą do zwiększonej częstości rearanżacji wtórnych i niestabilności chromosomu. Podobnie jak Xist , ASAR pokazują losowo ekspresję monoalleliczną i istnieją w domenach asynchronicznej replikacji DNA. Chociaż mechanizm funkcji ASAR jest nadal badany, postawiono hipotezę, że działają one poprzez podobne mechanizmy jak Xist lncRNA, ale na mniejszych domenach autosomalnych, co powoduje specyficzne dla alleli zmiany w ekspresji genów.
Nieprawidłowa naprawa pęknięć podwójnej nici DNA (DSB) prowadząca do rearanżacji chromosomów jest jedną z głównych przyczyn onkogenezy. Szereg lncRNA ma kluczowe znaczenie na różnych etapach głównych szlaków naprawy DSB w komórkach eukariotycznych : łączenia niehomologicznych końców ( NHEJ ) i naprawy ukierunkowanej na homologię ( HDR ). Mutacje genów lub zmiany poziomów ekspresji takich RNA mogą prowadzić do lokalnych defektów naprawy DNA, zwiększając częstość aberracji chromosomowych. Ponadto wykazano, że niektóre RNA mogą stymulować dalekosiężne rearanżacje chromosomów.
W starzeniu się i chorobie
Odkrycie, że długie ncRNA funkcjonują w różnych aspektach biologii komórki, doprowadziło do badań nad ich rolą w chorobach . Dziesiątki tysięcy lncRNA są potencjalnie związane z chorobami na podstawie multiomicznych . W kilku badaniach powiązano długie ncRNA z różnymi stanami chorobowymi i potwierdzono zaangażowanie i współpracę w chorobach neurologicznych i nowotworach .
Pierwszy opublikowany raport dotyczący zmiany obfitości lncRNA w starzeniu się i chorobach neurologicznych u ludzi dostarczyli Lukiw i in. w badaniu z wykorzystaniem tkanek pochodzących z krótkiego okresu pośmiertnego od pacjentów z chorobą Alzheimera i otępieniem niezwiązanym z chorobą Alzheimera (NAD); ta wczesna praca była oparta na wcześniejszej identyfikacji specyficznego dla mózgu naczelnych transkryptu cytoplazmatycznego rodziny powtórzeń Alu przez Watsona i Sutcliffe'a w 1987 r., znanego jako BC200 (mózg, cytoplazmatyczny, 200 nukleotydów).
Podczas gdy wiele badań asocjacyjnych zidentyfikowało niezwykłą ekspresję długich ncRNA w stanach chorobowych, niewiele wiadomo na temat ich roli w wywoływaniu choroby. Analizy ekspresji, które porównują komórki nowotworowe i normalne, ujawniły zmiany w ekspresji ncRNA w kilku postaciach raka . Na przykład w guzach prostaty PCGEM1 (jeden z dwóch nadeksprymowanych ncRNA) jest skorelowany ze zwiększoną proliferacją i tworzeniem kolonii , co sugeruje udział w regulacji wzrostu komórek. Stwierdzono, że PRNCR1 promuje guza w kilku przypadkach nowotwory złośliwe , takie jak rak prostaty , rak piersi , niedrobnokomórkowy rak płuc , rak płaskonabłonkowy jamy ustnej i rak jelita grubego . MALAT1 (znany również jako NEAT2) został pierwotnie zidentyfikowany jako obficie wyrażany ncRNA, który jest regulowany w górę podczas przerzutów we wczesnym stadium niedrobnokomórkowego raka płuc a jego nadekspresja jest wczesnym markerem prognostycznym dla słabych wskaźników przeżycia pacjentów. Wykazano, że LncRNA, takie jak HEAT2 lub KCNQ1OT1, są regulowane we krwi pacjentów z chorobami sercowo-naczyniowymi, takimi jak niewydolność serca lub choroba wieńcowa, a ponadto umożliwiają przewidywanie zdarzeń sercowo-naczyniowych. Niedawno stwierdzono, że wysoce konserwatywny mysi homolog MALAT1 ulega silnej ekspresji w raku wątrobowokomórkowym . Opisano również intronowe antysensowne ncRNA z ekspresją skorelowaną ze stopniem różnicowania guza w próbkach raka prostaty. Pomimo wielu długich ncRNA wykazujących nieprawidłową ekspresję w raku, ich funkcja i potencjalna rola w powstawaniu nowotworów są stosunkowo nieznane. Na przykład ncRNA HIS-1 i BIC są zaangażowane w rozwój raka i kontrolę wzrostu, ale ich funkcja w normalnych komórkach jest nieznana. Oprócz raka, ncRNA wykazują również nieprawidłową ekspresję w innych stanach chorobowych. Nadekspresja PRINS jest związana z łuszczycą podatność, przy czym ekspresja PRINS jest podwyższona w niezajętym naskórku pacjentów z łuszczycą w porównaniu zarówno ze zmianami łuszczycowymi, jak i zdrowym naskórkiem.
Profilowanie całego genomu ujawniło, że wiele transkrybowanych, niekodujących, ultrakonserwatywnych regionów wykazuje różne profile w różnych stanach nowotworowych człowieka. Analiza przewlekłej białaczki limfocytowej , raka jelita grubego i raka wątrobowokomórkowego wykazała, że wszystkie trzy nowotwory wykazywały nieprawidłowe profile ekspresji dla ultrakonserwowanych ncRNA w stosunku do normalnych komórek. Dalsza analiza jednego ultrakonserwatywnego ncRNA sugerowała, że zachowuje się on jak onkogen poprzez łagodzenie apoptozy, a następnie zwiększanie liczby komórek złośliwych w raku jelita grubego. Wiele z tych transkrybowanych ultrakonserwowanych miejsc, które wykazują wyraźne sygnatury w raku, znajduje się w wrażliwych miejscach i regionach genomowych związanych z rakiem. Wydaje się prawdopodobne, że nieprawidłowa ekspresja tych ultrakonserwatywnych ncRNA w procesach nowotworowych wynika z ważnych funkcji, jakie pełnią one w normalnym rozwoju człowieka .
Ostatnio wiele badań asocjacyjnych badających polimorfizmy pojedynczych nukleotydów (SNP) związane ze stanami chorobowymi zostało zmapowanych na długie ncRNA. Na przykład SNP, które zidentyfikowały locus podatności na zawał mięśnia sercowego zmapowane na długim ncRNA, MIAT (transkrypt związany z zawałem mięśnia sercowego). Podobnie badania asocjacyjne całego genomu zidentyfikowały region związany z chorobą wieńcową , który obejmował długi ncRNA, ANRIL . ANRIL ulega ekspresji w tkankach i typach komórek, na które wpływa miażdżyca tętnic i jej zmieniona ekspresja jest związana z haplotypem wysokiego ryzyka choroby wieńcowej.
Złożoność transkryptomu i nasze ewoluujące zrozumienie jego struktury może pomóc w reinterpretacji podstaw funkcjonalnych wielu naturalnych polimorfizmów związanych ze stanami chorobowymi. Wiele SNP związanych z pewnymi stanami chorobowymi znajduje się w regionach niekodujących, a złożone sieci niekodującej transkrypcji w tych regionach szczególnie utrudniają wyjaśnienie funkcjonalnych skutków polimorfizmów . Na przykład SNP zarówno w skróconej formie ZFAT , jak i promotor transkryptu antysensownego zwiększa ekspresję ZFAT nie poprzez zwiększenie mRNA , ale raczej poprzez tłumienie ekspresji transkryptu antysensownego.
Zdolność długich ncRNA do regulowania powiązanych genów kodujących białka może przyczyniać się do choroby, jeśli błędna ekspresja długiego ncRNA powoduje deregulację genu kodującego białko o znaczeniu klinicznym. W podobny sposób antysensowny długi ncRNA, który reguluje ekspresję sensownego BACE1 , kluczowego enzymu w etiologii choroby Alzheimera , wykazuje podwyższoną ekspresję w kilku regionach mózgu u osób z chorobą Alzheimera Zmiana ekspresji ncRNA może również pośredniczyć w zmianach na poziomie epigenetycznym, aby wpływać na ekspresję genów i przyczyniać się do etiologii choroby. Na przykład indukcja a antysensowny transkrypt przez mutację genetyczną doprowadził do metylacji DNA i wyciszenia sensownych genów, powodując u pacjenta β-talasemię .
Oprócz swojej roli w pośredniczeniu w procesach patologicznych, długie niekodujące RNA odgrywają rolę w odpowiedzi immunologicznej na szczepienie , co zidentyfikowano zarówno w przypadku szczepionki przeciw grypie , jak i szczepionki przeciw żółtej gorączce .