Wykres kropkowy (bioinformatyka)
W bioinformatyce wykres punktowy jest graficzną metodą porównywania dwóch sekwencji biologicznych i identyfikowania regionów o dużym podobieństwie po dopasowaniu sekwencji . Jest to rodzaj wykresu rekurencyjnego .
Historia
Jednym ze sposobów wizualizacji podobieństwa między dwiema sekwencjami białek lub kwasów nukleinowych jest użycie macierzy podobieństw, znanej jako wykres punktowy. Zostały one wprowadzone przez Gibbsa i McIntyre'a w 1970 roku i są dwuwymiarowymi macierzami, które mają sekwencje białek porównywanych wzdłuż osi pionowej i poziomej. Aby uzyskać prostą wizualną reprezentację podobieństwa między dwiema sekwencjami, poszczególne komórki w macierzy można zacieniować na czarno, jeśli reszty są identyczne, tak że pasujące segmenty sekwencji pojawiają się jako ciągi ukośnych linii w poprzek macierzy.
Interpretacja
Pewne wyobrażenie o podobieństwie tych dwóch sekwencji można wywnioskować z liczby i długości pasujących segmentów pokazanych w macierzy. Identyczne białka będą oczywiście miały ukośną linię w środku matrycy. Insercje i delecje między sekwencjami powodują zakłócenia na tej przekątnej. Regiony lokalnego podobieństwa lub powtarzających się sekwencji dają początek dalszym dopasowaniom ukośnym oprócz środkowej przekątnej. Jednym ze sposobów zmniejszenia tego szumu jest cieniowanie tylko przebiegów lub „ krotek ” reszt, np. krotka 3 odpowiada trzem resztom w rzędzie. Jest to skuteczne, ponieważ prawdopodobieństwo przypadkowego dopasowania trzech reszt z rzędu jest znacznie niższe niż w przypadku dopasowań pojedynczych reszt.
Wykresy punktowe porównują dwie sekwencje, organizując jedną sekwencję na osi x, a drugą na osi y wykresu. Gdy reszty obu sekwencji pasują do siebie w tym samym miejscu na wykresie, rysowana jest kropka w odpowiedniej pozycji. Należy zauważyć, że sekwencje mogą być zapisywane do tyłu lub do przodu, jednak sekwencje na obu osiach muszą być zapisywane w tym samym kierunku. Należy również zauważyć, że kierunek sekwencji na osiach określi kierunek linii na wykresie punktowym. Gdy kropki zostaną naniesione, połączą się, tworząc linie. Bliskość sekwencji w podobieństwie określi, jak blisko jest ukośna linia do tego, czym jest wykres przedstawiający krzywą wykazującą bezpośrednią zależność . Na tę zależność mają wpływ pewne cechy sekwencji, takie jak przesunięcia ramek, bezpośrednie powtórzenia i odwrócone powtórzenia. Przesunięcia ramek obejmują insercje, delecje i mutacje. Obecność jednej z tych cech lub obecność wielu cech spowoduje wykreślenie wielu linii w różnych możliwościach konfiguracji, w zależności od cech występujących w sekwencjach. Cechą, która spowoduje zupełnie inny wynik na wykresie punktowym, jest obecność regionu/regionów o niskiej złożoności. Regiony o niskiej złożoności to regiony w sekwencji zawierające tylko kilka aminokwasów, co z kolei powoduje redundancję w tym małym lub ograniczonym regionie. Regiony te zwykle znajdują się wokół przekątnej i mogą, ale nie muszą, mieć kwadrat na środku wykresu punktowego.
Oprogramowanie do tworzenia wykresów punktowych
- ANACON – Analiza kontaktowa wykresów punktowych.
- D-Genies – Specjalizuje się w interaktywnych wykresach punktowych całego genomu dużych genomów
- Dotlet – Zapewnia program umożliwiający konstruowanie wykresu punktowego z własnymi sekwencjami.
- dotmatcher – narzędzie internetowe do generowania wykresów punktowych (i część pakietu EMBOSS).
- Dotplot Archived 2016-10-03 at the Wayback Machine – łatwe (edukacyjne) narzędzie HTML5 do generowania wykresów punktowych z sekwencji RNA.
- dotplot – pakiet R do szybkiego generowania wykresów punktowych w formie grafiki tradycyjnej lub ggplot.
- Dotter – samodzielny program do generowania wykresów punktowych.
- JDotter – wersja Java Dottera.
- Flexidot – konfigurowalny i świadomy niejednoznaczności pakiet dotplot do estetyki, analiz wsadowych i drukowania (zaimplementowany w Pythonie).
- Gepard – narzędzie do wykresów punktowych odpowiednie dla równomiernej skali genomu.
- Genomdiff - Open source program Java dot plot dla wirusów.
- OSTATNIE dla „split-alignment” całego genomu.
- lastz i laj – Programy do przygotowywania i wizualizacji dopasowań genomowych.
- yass — internetowe narzędzie do generowania wykresów punktowych (zarówno dopełniacza przedniego, jak i odwrotnego) z dopasowań genomowych.
- seqinr – pakiet R do generowania wykresów punktowych.
- SynMap – łatwe w użyciu narzędzie internetowe do generowania wykresów punktowych dla wielu gatunków z dostępem do obszernej bazy danych genomów. Oferowane przez genomiki porównawczej CoGe.
- Przeglądarka wykresów punktowych UGENE – wizualizator wykresów punktowych typu open source.
- Ogólne wprowadzenie do wykresów punktowych z przykładowymi algorytmami i oprogramowaniem do tworzenia małych i średnich wykresów punktowych.
Oprócz narzędzi wymienionych powyżej serwer NCBI Blast pod adresem https://blast.ncbi.nlm.nih.gov/Blast.cgi zawiera wykresy punktowe w swoich danych wyjściowych.
Zobacz też
- ^ Gibbs, Adrian J.; McIntyre, George A. (1970). „Schemat, metoda porównywania sekwencji. Jego zastosowanie z sekwencjami aminokwasowymi i nukleotydowymi” . Eur. J. Biochem . 16 (1): 1–11. doi : 10.1111/j.1432-1033.1970.tb01046.x . PMID 5456129 .
- Bibliografia _ Cabanettes, Floréal (2018-02-23). „D-GENIES: Wykreśl duże GENomy w interaktywny, wydajny i prosty sposób” . PeerJ . 6 : e4958. doi : 10.7287/peerj.preprints.26567v1 . PMC 5991294 . PMID 29888139 .
- ^ Ryż, P .; Longden, I.; Bleasby, A. (czerwiec 2000). „EMBOSS: europejski pakiet otwartego oprogramowania do biologii molekularnej” . Trendy w genetyce . 16 (6): 276–277. doi : 10.1016/s0168-9525(00)02024-2 . ISSN 0168-9525 . PMID 10827456 .
- Bibliografia _ Durbin, R. (1995-12-29). „Program z matrycą punktową z dynamiczną kontrolą progową, odpowiedni do analizy sekwencji genomowego DNA i białek”. gen . 167 (1–2): KG1–10. doi : 10.1016/0378-1119(95)00714-8 . ISSN 0378-1119 . PMID 8566757 .
- Bibliografia _ Roper, Rachel L.; Upton, Chris (22.01.2004). „JDotter: interfejs Java do wielu wykresów punktowych generowanych przez kropkę” . Bioinformatyka . 20 (2): 279–281. doi : 10.1093/bioinformatyka/btg406 . ISSN 1367-4803 . PMID 14734323 .
- ^ Seibt, Kathrin M.; Schmidt, Tomasz; Heitkam, Tony (2018-10-15). „FlexiDot: Wysoce konfigurowalne, świadome niejednoznaczności wykresy punktowe do wizualnych analiz sekwencji” . Bioinformatyka . 34 (20): 3575–3577. doi : 10.1093/bioinformatyka/bty395 . PMID 29762645 .
- ^ Krumsiek, Jan; Arnold, Roland; Rattei, Thomas (2007-04-15). „Gepard: szybkie i czułe narzędzie do tworzenia wykresów punktowych w skali genomu” . Bioinformatyka . 23 (8): 1026–1028. doi : 10.1093/bioinformatyka/btm039 . ISSN 1367-4803 . PMID 17309896 .
- Bibliografia _ i Kawaguchi R. (2015). „Wyrównanie podziału genomów pozwala dokładniej znaleźć ortologie” . Genom Biol . 16 : 106. doi : 10.1186/s13059-015-0670-9 . PMC 4464727 . PMID 25994148 .
- ^ Harris, RS (2007). Ulepszone dopasowanie par genomowego DNA. doktorat teza . Pensylwania: Uniwersytet Stanowy Pensylwanii.
- ^ Noe L., Kucherov. G. (2005). „YASS: zwiększenie czułości wyszukiwania podobieństw DNA” . Badania kwasów nukleinowych . 33 (2): W540–W543. doi : 10.1093/nar/gki478 . PMC 1160238 . PMID 15980530 .