Wiele EM do pozyskiwania motywów

Multiple Expectation maximizations for Motif Ecitation (MEME) to narzędzie do odkrywania motywów w grupie powiązanych sekwencji DNA lub białek .

Motyw to wzorzec sekwencji, który powtarza się w grupie powiązanych sekwencji białkowych lub DNA i często jest powiązany z jakąś funkcją biologiczną . MEME przedstawia motywy jako zależne od pozycji macierze prawdopodobieństwa liter , które opisują prawdopodobieństwo każdej możliwej litery na każdej pozycji we wzorze. Poszczególne motywy MEME nie zawierają luk. Wzory z odstępami o zmiennej długości są dzielone przez MEME na dwa lub więcej oddzielnych motywów.

MEME pobiera jako dane wejściowe grupę sekwencji DNA lub białek (zestaw treningowy) i wyprowadza tyle motywów, ile zażądano. Wykorzystuje techniki modelowania statystycznego, aby automatycznie wybrać najlepszą szerokość, liczbę wystąpień i opis dla każdego motywu.

MEME jest pierwszym z kolekcji narzędzi do analizy motywów zwanej pakietem MEME .

Definicja

Algorytm MEME można rozumieć z dwóch różnych perspektyw. Z biologicznego punktu widzenia MEME identyfikuje i charakteryzuje wspólne motywy w zestawie niewyrównanych sekwencji. Z punktu widzenia informatyki MEME znajduje zestaw nienakładających się, w przybliżeniu pasujących podłańcuchów, biorąc pod uwagę początkowy zestaw ciągów. ^{[ potrzebne źródło ]}

Używać

MEME można wykorzystać do znalezienia podobnych funkcji i struktur biologicznych w różnych sekwencjach. Należy wziąć pod uwagę, że zmienność sekwencji może być znaczna, a motywy są czasami bardzo małe. Warto również wziąć pod uwagę, że miejsca wiązania białek są bardzo specyficzne. Ułatwia to ograniczenie eksperymentów w laboratorium mokrym (oszczędność kosztów i czasu). Rzeczywiście, aby lepiej odkryć motywy istotne z biologicznego punktu widzenia, należy starannie wybrać: najlepszą szerokość motywów, liczbę wystąpień w każdej sekwencji oraz kompozycję każdego motywu.

Składniki algorytmu

Algorytm wykorzystuje kilka typów dobrze znanych funkcji:

Maksymalizacja oczekiwań (EM).
Heurystyka oparta na EM do wyboru punktu początkowego EM.
maksymalnym współczynniku wiarygodności (oparta na LRT) do określania najlepszej liczby parametrów bez modelu.
Multi-start do wyszukiwania nad możliwymi szerokościami motywu.
Chciwe poszukiwanie wielu motywów.

Jednak często nie wiadomo, gdzie jest pozycja wyjściowa. Istnieje kilka możliwości: dokładnie jeden motyw na sekwencję, jeden lub zero motywów na sekwencję lub dowolna liczba motywów na sekwencję.

Zobacz też

Linki zewnętrzne

Pakiet MEME — narzędzia do analizy sekwencji oparte na motywach
Wersja MEME z akceleracją GPU
EXTREME — internetowa implementacja EM modelu MEME do szybkiego wykrywania motywów w dużych danych ChIP-Seq i DNase-Seq Footprinting