Kompresja danych sekwencjonowania genomu
sekwencjonowania o wysokiej przepustowości doprowadziły do dramatycznego spadku kosztów sekwencjonowania genomu i zadziwiająco szybkiego gromadzenia danych genomowych. Technologie te umożliwiają ambitne przedsięwzięcia w zakresie sekwencjonowania genomu, takie jak Projekt 1000 Genomów i Projekt 1001 Genomów ( Arabidopsis thaliana ). Przechowywanie i przesyłanie ogromnej ilości danych genomowych stało się powszechnym problemem, motywującym rozwój wysokowydajnych narzędzi do kompresji zaprojektowanych specjalnie dla danych genomicznych. Niedawny wzrost zainteresowania rozwojem nowych algorytmów i narzędzi do przechowywania i zarządzania danymi ponownego sekwencjonowania genomu podkreśla rosnące zapotrzebowanie na wydajne metody kompresji danych genomowych.
Pojęcia ogólne
Podczas gdy standardowe narzędzia do kompresji danych (np. zip i rar) są używane do kompresji danych sekwencji (np. baza danych GenBank ), podejście to było krytykowane jako ekstrawaganckie, ponieważ sekwencje genomowe często zawierają powtarzalną zawartość (np. sekwencje mikrosatelitarne) lub wiele sekwencji wykazuje wysoki poziom podobieństwa (np. wiele sekwencji genomu z tego samego gatunku). Ponadto statystyczne i informacyjne właściwości sekwencji genomowych można potencjalnie wykorzystać do kompresji danych sekwencjonowania.
Warianty bazowe
Przy dostępności matrycy referencyjnej należy rejestrować tylko różnice (np. substytucje i insercje/delecje pojedynczych nukleotydów), co znacznie zmniejsza ilość przechowywanych informacji. Pojęcie względnej kompresji jest oczywiste, zwłaszcza w projektach ponownego sekwencjonowania genomu, których celem jest odkrycie różnic w poszczególnych genomach. Zastosowanie referencyjnej mapy polimorfizmu pojedynczego nukleotydu ( SNP ), takiej jak dbSNP , może być wykorzystane do dalszej poprawy liczby wariantów do przechowywania.
Względne współrzędne genomowe
Innym przydatnym pomysłem jest przechowywanie względnych współrzędnych genomowych zamiast bezwzględnych współrzędnych. Na przykład, reprezentując podstawy wariantów sekwencji w formacie „ Pozycja1Base1Pozycja2Base2… ”, „123C125T130G” można skrócić do „0C2T5G”, gdzie liczby całkowite reprezentują odstępy między wariantami. Koszt to skromne obliczenie arytmetyczne wymagane do odzyskania współrzędnych bezwzględnych plus przechowywanie współczynnika korekcji (w tym przykładzie „123”).
Wstępne informacje o genomach
Dalszą redukcję można osiągnąć, jeśli wszystkie możliwe pozycje podstawień w puli sekwencji genomu są znane z wyprzedzeniem. Na przykład, jeśli znane są wszystkie lokalizacje SNP w populacji ludzkiej, nie ma potrzeby rejestrowania informacji o współrzędnych wariantu (np. „123C125T130G” można skrócić do „CTG”). Takie podejście jest jednak rzadko właściwe, ponieważ takie informacje są zwykle niekompletne lub niedostępne.
Kodowanie współrzędnych genomowych
kodowania są używane do konwersji liczb całkowitych współrzędnych na postać binarną, aby zapewnić dodatkowe wzmocnienia kompresji. Projekty kodowania, takie jak kod Golomba i kod Huffmana , zostały włączone do narzędzi do kompresji danych genomowych. Oczywiście schematy kodowania pociągają za sobą towarzyszące im algorytmy dekodowania. Wybór schematu dekodowania potencjalnie wpływa na efektywność wyszukiwania informacji o sekwencji.
Wybór projektu algorytmu
Uniwersalne podejście do kompresji danych genomowych niekoniecznie musi być optymalne, ponieważ konkretna metoda może być bardziej odpowiednia do określonych celów i celów. W związku z tym warto rozważyć kilka wyborów projektowych, które potencjalnie wpływają na wydajność kompresji.
Sekwencja referencyjna
Wybór sekwencji odniesienia dla kompresji względnej może wpłynąć na wydajność kompresji. Wybór konsensusowej sekwencji referencyjnej zamiast bardziej specyficznej sekwencji referencyjnej (np. poprawionej sekwencji referencyjnej Cambridge ) może skutkować wyższym stopniem kompresji, ponieważ konsensusowe odniesienie może zawierać mniej błędów systematycznych w swoich danych. Wiedza o źródle sekwencji poddawanej kompresji może być jednak wykorzystana do uzyskania większych wzmocnień kompresji. Zaproponowano pomysł wykorzystania wielu sekwencji odniesienia. Brandona i in. jako przykład kompresję danych wariantów mitochondrialnego DNA (patrz ryc. 2). Autorzy stwierdzili tendencyjną dystrybucję haplotypów w sekwencjach mitochondrialnego DNA Afrykanów, Azjatów i Eurazjatów w stosunku do poprawionej sekwencji referencyjnej Cambridge . Ich wynik sugeruje, że poprawiona sekwencja referencyjna Cambridge może nie zawsze być optymalna, ponieważ należy przechowywać większą liczbę wariantów, gdy jest używana w odniesieniu do danych od osób odległych etnicznie. Dodatkowo sekwencję referencyjną można zaprojektować w oparciu o właściwości statystyczne lub zmodyfikować w celu poprawy współczynnika kompresji.
Schematy kodowania
Zbadano zastosowanie różnych typów schematów kodowania do kodowania wariantów zasad i współrzędnych genomowych. Stałe kody, takie jak kod Golomba i kod Rice'a , są odpowiednie, gdy rozkład wariantu lub współrzędnych (reprezentowany jako liczba całkowita) jest dobrze zdefiniowany. Kody zmienne, takie jak kod Huffmana , zapewniają bardziej ogólny schemat kodowania entropijnego, gdy bazowy wariant i/lub rozkład współrzędnych nie jest dobrze zdefiniowany (zwykle ma to miejsce w przypadku danych sekwencji genomowej).
Lista narzędzi do kompresji danych do ponownego sekwencjonowania genomu
Współczynnik kompresji obecnie dostępnych narzędzi do kompresji danych genomowych waha się od 65-krotności do 1200-krotności dla ludzkich genomów. Bardzo zbliżone warianty lub wersje tego samego genomu można bardzo wydajnie skompresować (na przykład współczynnik kompresji 18 133 odnotowano dla dwóch wersji tego samego genomu A. thaliana, które są w 99,999% identyczne). Jednak taka kompresja nie wskazuje na typowy stopień kompresji dla różnych genomów (osobników) tego samego organizmu. Najpopularniejszym schematem kodowania wśród tych narzędzi jest kodowanie Huffmana , które służy do bezstratnej kompresji danych .
Oprogramowanie | Opis | Stopień sprężania | Dane wykorzystywane do oceny | Podejście/Schemat kodowania | Połączyć | Użyj licencji | Odniesienie |
---|---|---|---|---|---|---|---|
Genozip | Uniwersalny kompresor plików genomicznych – kompresuje pliki FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP i 23andMe | 60% do 99% | Sekwencje ludzkiego genomu z projektu 1000 genomów | Rozszerzalny framework Genzip | http://genozip.com | Komercyjne, ale bezpłatne do użytku niekomercyjnego | |
Ściśnięcie genomu (G-SQZ) | Narzędzie do bezstratnej kompresji przeznaczone do przechowywania i analizowania odczytanych danych sekwencjonowania | 65% do 76% | Sekwencje ludzkiego genomu z projektu 1000 genomów | kodowanie Huffmana | http://public.tgen.org/sqz | -Niezgłoszony- | |
CRAM (część SAMtools ) | Wysoce wydajna i konfigurowalna kompresja danych sekwencji oparta na referencjach | Europejskie Archiwum Nukleotydów | spuścić powietrze i rANS | http://www.ebi.ac.uk/ena/software/cram-toolkit | Apache-2.0 | ||
Kompresor genomu (GeCo) | Narzędzie wykorzystujące mieszankę wielu modeli Markowa do kompresji sekwencji referencyjnych i bezodniesieniowych | Sekwencja ludzkiego genomu jądrowego | Kodowanie arytmetyczne | http://bioinformatics.ua.pt/software/geco/ lub https://pratas.github.io/geco/ | GPLv3 | ||
PetaSuite | Bezstratne narzędzie do kompresji plików BAM i FASTQ | 60% do 90% | Sekwencje ludzkiego genomu z projektu 1000 genomów | https://www.petagene.com | Handlowy | ||
Kodeki GenomSys | Bezstratna kompresja plików BAM i FASTQ do standardowego formatu ISO/IEC 23092 (MPEG-G) | 60% do 90% | Sekwencje ludzkiego genomu z projektu 1000 genomów | Dostosowujące się do kontekstu binarne kodowanie arytmetyczne (CABAC) | https://www.genomsys.com | Handlowy | |
dżin | Transkodowanie między formatami FASTA, FASTQ i SAM/BAM oraz formatem ISO/IEC 23092 (MPEG-G) | [W budowie] | [W budowie] | Dostosowujące się do kontekstu binarne kodowanie arytmetyczne (CABAC) | https://github.com/mitogen/genie | BSD |
Oprogramowanie | Opis | Stopień sprężania | Dane wykorzystywane do oceny | Podejście/Schemat kodowania | Połączyć | Użyj licencji | Odniesienie |
---|---|---|---|---|---|---|---|
Kompresor różnicowy genomu (GDC) | Narzędzie w stylu LZ77 do kompresji wielu genomów tego samego gatunku | Od 180 do 250 razy / od 70 do 100 razy | Sekwencja genomu jądrowego człowieka i Saccharomyces cerevisiae | kodowanie Huffmana | http://sun.aei.polsl.pl/gdc | GPLv2 | |
Ponowne sekwencjonowanie genomu (GRS) | Narzędzie oparte na sekwencji referencyjnej, niezależne od referencyjnej mapy SNP lub informacji o zmienności sekwencji | 159-krotnie / 18133-krotnie / 82-krotnie | Sekwencja genomu jądrowego człowieka, Arabidopsis thaliana (różne wersje tego samego genomu) i Oryza sativa | kodowanie Huffmana | https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ | bezpłatnie do użytku niekomercyjnego | |
Kodowanie ponownego sekwencjonowania genomu (GreEN) | Narzędzie oparte na probabilistycznym modelu kopiowania do kompresji danych ponownego sekwencjonowania przy użyciu sekwencji referencyjnej | ~100-krotnie | Sekwencja ludzkiego genomu jądrowego | Kodowanie arytmetyczne | http://bioinformatics.ua.pt/software/green/ | -Niezgłoszony- | |
DNAzip | Pakiet narzędzi do kompresji | ~ 750-krotnie | Sekwencja ludzkiego genomu jądrowego | kodowanie Huffmana | http://www.ics.uci.edu/~dnazip/ | -Niezgłoszony- | |
GenomeZip | Kompresja w odniesieniu do genomu odniesienia. Opcjonalnie wykorzystuje zewnętrzne bazy danych wariacji genomowych (np. dbSNP) | ~ 1200-krotnie | Sekwencja ludzkiego genomu jądrowego (Watson) i sekwencje z projektu 1000 genomów | Kodowanie entropijne dla przybliżeń rozkładów empirycznych | https://sourceforge.net/projects/genomezip/ | -Niezgłoszony- |