Logo sekwencji

Logo sekwencji przedstawiające najbardziej konserwatywne zasady wokół kodonu inicjacyjnego ze wszystkich ludzkich mRNA ( sekwencja konsensusowa Kozaka ). Należy zauważyć, że kodon inicjacji nie jest rysowany w skali, w przeciwnym razie każda z liter AUG miałaby wysokość 2 bitów.

W bioinformatyce logo sekwencji jest graficzną reprezentacją zachowania sekwencji nukleotydów (w nici DNA / RNA ) lub aminokwasów (w sekwencjach białek ) . Logo sekwencji jest tworzone ze zbioru dopasowanych sekwencji i przedstawia sekwencję konsensusową oraz różnorodność sekwencji. Logo sekwencji są często używane do przedstawiania właściwości sekwencji, takich jak miejsca wiązania białek w DNA lub jednostki funkcjonalne w białkach.

Przegląd

Logo sekwencyjne składa się ze stosu liter w każdej pozycji. Względne rozmiary liter wskazują ich częstotliwość w sekwencjach. Całkowita wysokość liter przedstawia zawartość informacyjną pozycji w bitach.

Tworzenie logo

Aby utworzyć logo sekwencji, pokrewne sekwencje DNA, RNA lub białek lub sekwencje DNA, które mają wspólne konserwatywne miejsca wiązania, są dopasowywane tak, że najbardziej konserwatywne części tworzą dobre dopasowania. Następnie można utworzyć logo sekwencji z zachowanego dopasowania wielu sekwencji . Logo sekwencji pokaże, jak dobrze reszty są konserwowane w każdej pozycji: im większa liczba reszt, tym wyższe będą litery, ponieważ lepsza jest konserwacja w tej pozycji. Różne reszty w tej samej pozycji są skalowane zgodnie z ich częstotliwością. Wysokość całego stosu pozostałości jest informacją mierzoną w bity . Logo sekwencji można wykorzystać do przedstawienia konserwatywnych miejsc wiązania DNA , w których wiążą się czynniki transkrypcyjne .

Treść informacji (oś y) pozycji jest określona przez: ${\ displaystyle i}$

dla aminokwasów

{\ Displaystyle R_ {i} = \ log _ {2} (20) - (H_ {i} + e_ {n}) }

dla kwasów nukleinowych

{\ Displaystyle R_ {i} = \ log _ {2} (4) - (H_ {i} + e_ {n} )}

gdzie $jest$ niepewnością (czasami nazywaną entropią Shannona pozycji ja $displaystyle i}$

{\ Displaystyle H_ {i} = - \ suma _ {b = 1} ^ {t} f_ {b, i} \ razy \log _{2}f_{b,i}}

Tutaj ${\ displaystyle f_ {b, i}}$ jest względną częstotliwością zasady $displaystyle$ aminokwasu w pozycji $i}$ i ${\ displaystyle e_ {n} }$ ^{[ wymagane wyjaśnienie ]} to poprawka na małą próbkę dla $wyrównania$ . Wysokość litery ${\ displaystyle b}$ w kolumnie ${\ displaystyle i}$ jest dany przez

{\ Displaystyle {\ tekst {wysokość}} = f_ {b, i} \ razy R_ {i}}

Przybliżenie dla poprawki na małą próbkę, jest podane przez: ${\ displaystyle e_ {n}}$

{\ Displaystyle e_ {n} = {\ Frac {1} {\ ln {2}}} \ razy {\ Frac {s-1} {2n}}}

gdzie $4$ dla nukleotydów, 20 dla aminokwasów i $jest$ sekwencji w dopasowaniu.

Logo konsensusu

Logo konsensusu to uproszczona odmiana logo sekwencji, którą można osadzić w formacie tekstowym. Podobnie jak logo sekwencji, logo konsensusu jest tworzone ze zbioru dopasowanych sekwencji białek lub DNA/RNA i przekazuje informacje o zachowaniu każdej pozycji motywu sekwencji lub dopasowania sekwencji . Jednak logo konsensusu wyświetla tylko informacje o ochronie, a nie wyraźnie informacje o częstotliwości każdego nukleotydu lub aminokwasu na każdej pozycji. Zamiast stosu składającego się z kilku znaków, oznaczającego względną częstotliwość każdego znaku, logo konsensusu przedstawia stopień zachowania każdej pozycji przy użyciu wysokości znaku konsensusu na tej pozycji.

Logo sekwencji dla motywu wiążącego LexA kilku gatunków Gram-dodatnich.

Logo konsensusu dla motywu wiążącego LexA kilku gatunków Gram-dodatnich.

Zalety i wady

Główną i oczywistą zaletą logo konsensusu w porównaniu z logo sekwencyjnym jest ich zdolność do osadzania jako tekstu w dowolnym formacie RTF obsługującym edytor/przeglądarkę, a zatem w manuskryptach naukowych. Jak opisano powyżej, logo konsensusu jest skrzyżowaniem logo sekwencji i sekwencji konsensusu . W rezultacie, w porównaniu do logo sekwencji, logo konsensusu pomija informacje (względny wkład każdego znaku w zachowanie tej pozycji w motywie/ustawieniu). W związku z tym logo sekwencyjne powinno być stosowane preferencyjnie, gdy tylko jest to możliwe. To powiedziawszy, potrzeba uwzględnienia figur graficznych w celu wyświetlenia logo sekwencji utrwaliła stosowanie sekwencji konsensusowych w manuskryptach naukowych, mimo że nie przekazują one informacji zarówno o zachowaniu, jak i częstotliwości. Logo konsensusu stanowi zatem ulepszenie w stosunku do sekwencji konsensusu, ilekroć informacja o motywie / dopasowaniu musi być ograniczona do tekstu.

Rozszerzenia

Ukryte modele Markowa (HMM) uwzględniają nie tylko zawartość informacyjną wyrównanych pozycji w dopasowaniu, ale także wstawienia i usunięcia. W logo sekwencji HMM używanym przez Pfam , dodano trzy wiersze, aby wskazać częstotliwość zajętości (obecności) i wkładania, a także oczekiwaną długość wkładania.

Sekwencja logo dla lubiących TALE . Zwróć uwagę na zmniejszone obłożenie (niebieskie) na pozycji pierwszej i sporadyczne wstawianie na pozycji 19 (czerwone).

Zobacz też

Linki zewnętrzne

Utwórz logo sekwencji w przeglądarce, offline
Logo sekwencji GitHub w natywnym JavaScript
Jak czytać logo sekwencji .
Zalecenia dotyczące tworzenia logo sekwencji .
Erill, I., „Delikatne wprowadzenie do treści informacji w miejscach wiązania czynników transkrypcyjnych”, Eprint
Czym jest (w) logo sekwencji?