Wiele EM do pozyskiwania motywów
Multiple Expectation maximizations for Motif Ecitation (MEME) to narzędzie do odkrywania motywów w grupie powiązanych sekwencji DNA lub białek .
Motyw to wzorzec sekwencji, który powtarza się w grupie powiązanych sekwencji białkowych lub DNA i często jest powiązany z jakąś funkcją biologiczną . MEME przedstawia motywy jako zależne od pozycji macierze prawdopodobieństwa liter , które opisują prawdopodobieństwo każdej możliwej litery na każdej pozycji we wzorze. Poszczególne motywy MEME nie zawierają luk. Wzory z odstępami o zmiennej długości są dzielone przez MEME na dwa lub więcej oddzielnych motywów.
MEME pobiera jako dane wejściowe grupę sekwencji DNA lub białek (zestaw treningowy) i wyprowadza tyle motywów, ile zażądano. Wykorzystuje techniki modelowania statystycznego, aby automatycznie wybrać najlepszą szerokość, liczbę wystąpień i opis dla każdego motywu.
MEME jest pierwszym z kolekcji narzędzi do analizy motywów zwanej pakietem MEME .
Definicja
Algorytm MEME można rozumieć z dwóch różnych perspektyw. Z biologicznego punktu widzenia MEME identyfikuje i charakteryzuje wspólne motywy w zestawie niewyrównanych sekwencji. Z punktu widzenia informatyki MEME znajduje zestaw nienakładających się, w przybliżeniu pasujących podłańcuchów, biorąc pod uwagę początkowy zestaw ciągów. [ potrzebne źródło ]
Używać
MEME można wykorzystać do znalezienia podobnych funkcji i struktur biologicznych w różnych sekwencjach. Należy wziąć pod uwagę, że zmienność sekwencji może być znaczna, a motywy są czasami bardzo małe. Warto również wziąć pod uwagę, że miejsca wiązania białek są bardzo specyficzne. Ułatwia to ograniczenie eksperymentów w laboratorium mokrym (oszczędność kosztów i czasu). Rzeczywiście, aby lepiej odkryć motywy istotne z biologicznego punktu widzenia, należy starannie wybrać: najlepszą szerokość motywów, liczbę wystąpień w każdej sekwencji oraz kompozycję każdego motywu.
Składniki algorytmu
Algorytm wykorzystuje kilka typów dobrze znanych funkcji:
- Maksymalizacja oczekiwań (EM).
- Heurystyka oparta na EM do wyboru punktu początkowego EM.
- maksymalnym współczynniku wiarygodności (oparta na LRT) do określania najlepszej liczby parametrów bez modelu.
- Multi-start do wyszukiwania nad możliwymi szerokościami motywu.
- Chciwe poszukiwanie wielu motywów.
Jednak często nie wiadomo, gdzie jest pozycja wyjściowa. Istnieje kilka możliwości: dokładnie jeden motyw na sekwencję, jeden lub zero motywów na sekwencję lub dowolna liczba motywów na sekwencję.
Zobacz też
Linki zewnętrzne
- Pakiet MEME — narzędzia do analizy sekwencji oparte na motywach
- Wersja MEME z akceleracją GPU
- EXTREME — internetowa implementacja EM modelu MEME do szybkiego wykrywania motywów w dużych danych ChIP-Seq i DNase-Seq Footprinting