frap
Phrap to szeroko stosowany program do składania sekwencji DNA . Jest częścią Phred -Phrap- Consed .
Historia
Phrap został pierwotnie opracowany przez prof. Phila Greena do składania kosmidów w sekwencjonowaniu kosmidów na dużą skalę w ramach projektu Human Genome Project . Phrap był szeroko stosowany w wielu różnych projektach składania sekwencji, w tym w zespołach genomu bakteryjnego i zespołach EST.
Phrap został napisany jako program wiersza poleceń w celu łatwej integracji ze zautomatyzowanymi przepływami danych w centrach sekwencjonowania genomu. Dla użytkowników, którzy chcą używać Phrap z interfejsu graficznego, dostępne są komercyjne programy MacVector ( tylko dla Mac OS X ) i CodonCode Aligner (dla Mac OS X i Microsoft Windows ).
Metody
Szczegółowy (choć częściowo nieaktualny) opis algorytmów Phrap można znaleźć w dokumentacji Phrap . Powtarzającym się wątkiem w algorytmach Phrap jest wykorzystanie wyników jakości Phred . Phrap wykorzystał wyniki jakości, aby złagodzić problem, z którym borykały się inne programy montażowe na początku projektu Human Genome Project : prawidłowe składanie częstych niedoskonałych powtórzeń, w szczególności sekwencji Alu . Phrap wykorzystuje wyniki jakości, aby stwierdzić, czy jakiekolwiek zaobserwowane różnice w powtarzających się regionach są prawdopodobnie spowodowane przypadkowymi niejasnościami w procesie sekwencjonowania, czy też bardziej prawdopodobne jest, że sekwencje pochodzą z różnych kopii powtórzeń Alu. Zazwyczaj Phrap nie miał problemów z rozróżnianiem różnych kopii Alu w kosmidzie i prawidłowym składaniem kosmidów (lub później BAC ). Logika jest prosta: sprawdzenie bazowe z dużym prawdopodobieństwem poprawności nie powinno być nigdy łączone z inną bazą wysokiej jakości, ale inną bazą. Jednak Phrap nie wyklucza całkowicie takich dopasowań, a luka w dopasowaniu krzyżowym i kary za dopasowanie stosowane podczas wyszukiwania lokalnych dopasowań nie zawsze są optymalne dla typowych błędów sekwencjonowania i wyszukiwania nakładających się (ciągłych) sekwencji. (Luki afiniczne są pomocne przy wyszukiwaniu homologii, ale zwykle nie przy dopasowywaniu błędów sekwencjonowania). Phrap próbuje sklasyfikować chimery, sekwencje wektorowe i regiony końcowe niskiej jakości w jednym dopasowaniu i czasami popełnia błędy. Co więcej, Phrap ma wewnętrznie więcej niż jedną rundę budowania zespołu, a późniejsze rundy są mniej rygorystyczne - algorytm Chciwy.
Te wybory projektowe były pomocne w latach 90., kiedy program był pierwotnie napisany (na Uniwersytecie Waszyngtońskim w St. Louis ), ale teraz są mniej przydatne. Phrap wydaje się być podatny na błędy w porównaniu z nowszymi asemblerami, takimi jak Euler, i nie może bezpośrednio wykorzystywać informacji o parach mate do kierowania asemblerem i asemblera przeszłych doskonałych powtórzeń. Phrap nie jest wolnym oprogramowaniem, więc nie został rozszerzony i ulepszony, jak mniej ograniczone oprogramowanie typu open source Montaż sekwencji .
Sekwencje konsensusu oparte na jakości
Innym zastosowaniem wyników jakości Phred autorstwa Phrap, które przyczyniło się do sukcesu programu, było określenie sekwencji konsensusowych przy użyciu jakości sekwencji. W efekcie Phrap zautomatyzował krok, który był głównym wąskim gardłem we wczesnych fazach projektu Human Genome Project : określenie prawidłowej sekwencji konsensusowej we wszystkich pozycjach, w których złożone sekwencje miały rozbieżne zasady. Podejście to zostało zaproponowane przez Bonfielda i Stadena w 1995 roku i zostało zaimplementowane i dodatkowo zoptymalizowane w Phrap. Zasadniczo, w dowolnej pozycji konsensusu z rozbieżnymi podstawami, Phrap bada wyniki jakości dopasowanych sekwencji, aby znaleźć sekwencję o najwyższej jakości. W tym procesie Phrap bierze pod uwagę potwierdzenie lokalnej sekwencji przez inne odczyty, po rozważeniu kierunku i chemii sekwencjonowania.
Matematyka tego podejścia była raczej prosta, ponieważ wyniki jakości Phred są logarytmicznie powiązane z prawdopodobieństwem błędu. Oznacza to, że wyniki jakości potwierdzających odczytów można po prostu dodać, o ile rozkłady błędów są wystarczająco niezależne. Aby spełnić to kryterium niezależności, odczyty muszą zazwyczaj odbywać się w różnych kierunkach, ponieważ wzorce pików, które powodują błędy wywołania zasad, są często identyczne, gdy region jest sekwencjonowany kilka razy w tym samym kierunku.
Jeśli podstawa konsensusu jest pokryta zarówno sekwencją o wysokiej jakości, jak i (niezgodną) sekwencją o niskiej jakości, wybór sekwencji o wyższej jakości przez Phrapa będzie w większości przypadków poprawny. Następnie Phrap przypisuje potwierdzoną jakość zasad do bazy sekwencji konsensusowej. Ułatwia to (a) znalezienie regionów konsensusu, które nie są objęte sekwencją o wysokiej jakości (która również będzie miała niską jakość) oraz (b) szybkie obliczenie dość dokładnego oszacowania poziomu błędu sekwencji konsensusu. Informacje te można następnie wykorzystać do ukierunkowania wysiłków wykończeniowych, na przykład ponownego sekwencjonowania regionów problematycznych.
Połączenie dokładnych, specyficznych dla zasady wyników jakości i opartej na jakości konsensusowej sekwencji było kluczowym elementem sukcesu projektu Human Genome Project . Phred i Phrap oraz podobne programy, które podchwyciły idee zapoczątkowane przez te dwa programy, umożliwiły złożenie dużych części ludzkiego genomu (i wielu innych genomów) z dokładnością, która była znacznie wyższa (mniej niż 1 błąd na 10 000 zasad) niż typowa dokładność starannie edytowanych sekwencji, które zostały wcześniej przesłane do bazy danych GenBank .
- ^ Bonfield JK, Staden R (1995): Zastosowanie oszacowań numerycznych dokładności wywoływania zasad w projektach sekwencjonowania DNA. Kwasy nukleinowe Res. 25 kwietnia 1995;23(8):1406-10. ID 7753633
- ^ Krawetz SA (1989): Błędy sekwencji opisane w GenBank: sposób na określenie dokładności interpretacji sekwencji DNA. Kwasy nukleinowe Res. 1989 25 maja;17(10):3951-7