Kompresja danych sekwencjonowania genomu

sekwencjonowania o wysokiej przepustowości doprowadziły do dramatycznego spadku kosztów sekwencjonowania genomu i zadziwiająco szybkiego gromadzenia danych genomowych. Technologie te umożliwiają ambitne przedsięwzięcia w zakresie sekwencjonowania genomu, takie jak Projekt 1000 Genomów i Projekt 1001 Genomów ( Arabidopsis thaliana ). Przechowywanie i przesyłanie ogromnej ilości danych genomowych stało się powszechnym problemem, motywującym rozwój wysokowydajnych narzędzi do kompresji zaprojektowanych specjalnie dla danych genomicznych. Niedawny wzrost zainteresowania rozwojem nowych algorytmów i narzędzi do przechowywania i zarządzania danymi ponownego sekwencjonowania genomu podkreśla rosnące zapotrzebowanie na wydajne metody kompresji danych genomowych.

Pojęcia ogólne

Podczas gdy standardowe narzędzia do kompresji danych (np. zip i rar) są używane do kompresji danych sekwencji (np. baza danych GenBank ), podejście to było krytykowane jako ekstrawaganckie, ponieważ sekwencje genomowe często zawierają powtarzalną zawartość (np. sekwencje mikrosatelitarne) lub wiele sekwencji wykazuje wysoki poziom podobieństwa (np. wiele sekwencji genomu z tego samego gatunku). Ponadto statystyczne i informacyjne właściwości sekwencji genomowych można potencjalnie wykorzystać do kompresji danych sekwencjonowania.

Rycina 1: Główne etapy przepływu pracy w celu kompresji danych ponownego sekwencjonowania genomu: (1) przetwarzanie oryginalnych danych sekwencjonowania (np. redukcja oryginalnego zestawu danych tylko do zmian w stosunku do określonej sekwencji referencyjnej; (2) kodowanie przetworzonych danych do postaci binarnej oraz (3) dekodowanie danych z powrotem do postaci tekstowej.

Warianty bazowe

Przy dostępności matrycy referencyjnej należy rejestrować tylko różnice (np. substytucje i insercje/delecje pojedynczych nukleotydów), co znacznie zmniejsza ilość przechowywanych informacji. Pojęcie względnej kompresji jest oczywiste, zwłaszcza w projektach ponownego sekwencjonowania genomu, których celem jest odkrycie różnic w poszczególnych genomach. Zastosowanie referencyjnej mapy polimorfizmu pojedynczego nukleotydu ( SNP ), takiej jak dbSNP , może być wykorzystane do dalszej poprawy liczby wariantów do przechowywania.

Względne współrzędne genomowe

Innym przydatnym pomysłem jest przechowywanie względnych współrzędnych genomowych zamiast bezwzględnych współrzędnych. Na przykład, reprezentując podstawy wariantów sekwencji w formacie „ Pozycja1Base1Pozycja2Base2… ”, „123C125T130G” można skrócić do „0C2T5G”, gdzie liczby całkowite reprezentują odstępy między wariantami. Koszt to skromne obliczenie arytmetyczne wymagane do odzyskania współrzędnych bezwzględnych plus przechowywanie współczynnika korekcji (w tym przykładzie „123”).

Wstępne informacje o genomach

Dalszą redukcję można osiągnąć, jeśli wszystkie możliwe pozycje podstawień w puli sekwencji genomu są znane z wyprzedzeniem. Na przykład, jeśli znane są wszystkie lokalizacje SNP w populacji ludzkiej, nie ma potrzeby rejestrowania informacji o współrzędnych wariantu (np. „123C125T130G” można skrócić do „CTG”). Takie podejście jest jednak rzadko właściwe, ponieważ takie informacje są zwykle niekompletne lub niedostępne.

Kodowanie współrzędnych genomowych

kodowania są używane do konwersji liczb całkowitych współrzędnych na postać binarną, aby zapewnić dodatkowe wzmocnienia kompresji. Projekty kodowania, takie jak kod Golomba i kod Huffmana , zostały włączone do narzędzi do kompresji danych genomowych. Oczywiście schematy kodowania pociągają za sobą towarzyszące im algorytmy dekodowania. Wybór schematu dekodowania potencjalnie wpływa na efektywność wyszukiwania informacji o sekwencji.

Wybór projektu algorytmu

Uniwersalne podejście do kompresji danych genomowych niekoniecznie musi być optymalne, ponieważ konkretna metoda może być bardziej odpowiednia do określonych celów i celów. W związku z tym warto rozważyć kilka wyborów projektowych, które potencjalnie wpływają na wydajność kompresji.

Sekwencja referencyjna

Wybór sekwencji odniesienia dla kompresji względnej może wpłynąć na wydajność kompresji. Wybór konsensusowej sekwencji referencyjnej zamiast bardziej specyficznej sekwencji referencyjnej (np. poprawionej sekwencji referencyjnej Cambridge ) może skutkować wyższym stopniem kompresji, ponieważ konsensusowe odniesienie może zawierać mniej błędów systematycznych w swoich danych. Wiedza o źródle sekwencji poddawanej kompresji może być jednak wykorzystana do uzyskania większych wzmocnień kompresji. Zaproponowano pomysł wykorzystania wielu sekwencji odniesienia. Brandona i in. jako przykład kompresję danych wariantów mitochondrialnego DNA (patrz ryc. 2). Autorzy stwierdzili tendencyjną dystrybucję haplotypów w sekwencjach mitochondrialnego DNA Afrykanów, Azjatów i Eurazjatów w stosunku do poprawionej sekwencji referencyjnej Cambridge . Ich wynik sugeruje, że poprawiona sekwencja referencyjna Cambridge może nie zawsze być optymalna, ponieważ należy przechowywać większą liczbę wariantów, gdy jest używana w odniesieniu do danych od osób odległych etnicznie. Dodatkowo sekwencję referencyjną można zaprojektować w oparciu o właściwości statystyczne lub zmodyfikować w celu poprawy współczynnika kompresji.

Schematy kodowania

Zbadano zastosowanie różnych typów schematów kodowania do kodowania wariantów zasad i współrzędnych genomowych. Stałe kody, takie jak kod Golomba i kod Rice'a , są odpowiednie, gdy rozkład wariantu lub współrzędnych (reprezentowany jako liczba całkowita) jest dobrze zdefiniowany. Kody zmienne, takie jak kod Huffmana , zapewniają bardziej ogólny schemat kodowania entropijnego, gdy bazowy wariant i/lub rozkład współrzędnych nie jest dobrze zdefiniowany (zwykle ma to miejsce w przypadku danych sekwencji genomowej).

Lista narzędzi do kompresji danych do ponownego sekwencjonowania genomu

Współczynnik kompresji obecnie dostępnych narzędzi do kompresji danych genomowych waha się od 65-krotności do 1200-krotności dla ludzkich genomów. Bardzo zbliżone warianty lub wersje tego samego genomu można bardzo wydajnie skompresować (na przykład współczynnik kompresji 18 133 odnotowano dla dwóch wersji tego samego genomu A. thaliana, które są w 99,999% identyczne). Jednak taka kompresja nie wskazuje na typowy stopień kompresji dla różnych genomów (osobników) tego samego organizmu. Najpopularniejszym schematem kodowania wśród tych narzędzi jest kodowanie Huffmana , które służy do bezstratnej kompresji danych .

Narzędzia do kompresji danych do sekwencjonowania genomu kompatybilne ze standardowymi formatami plików do sekwencjonowania genomu (BAM i FASTQ)
Oprogramowanie	Opis	Stopień sprężania	Dane wykorzystywane do oceny	Podejście/Schemat kodowania	Połączyć	Użyj licencji
Genozip	Uniwersalny kompresor plików genomicznych – kompresuje pliki FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP i 23andMe	60% do 99%	Sekwencje ludzkiego genomu z projektu 1000 genomów	Rozszerzalny framework Genzip	http://genozip.com	Komercyjne, ale bezpłatne do użytku niekomercyjnego
Ściśnięcie genomu (G-SQZ)	Narzędzie do bezstratnej kompresji przeznaczone do przechowywania i analizowania odczytanych danych sekwencjonowania	65% do 76%	Sekwencje ludzkiego genomu z projektu 1000 genomów	kodowanie Huffmana	http://public.tgen.org/sqz	-Niezgłoszony-
CRAM (część SAMtools )	Wysoce wydajna i konfigurowalna kompresja danych sekwencji oparta na referencjach		Europejskie Archiwum Nukleotydów	spuścić powietrze i rANS	http://www.ebi.ac.uk/ena/software/cram-toolkit	Apache-2.0
Kompresor genomu (GeCo)	Narzędzie wykorzystujące mieszankę wielu modeli Markowa do kompresji sekwencji referencyjnych i bezodniesieniowych		Sekwencja ludzkiego genomu jądrowego	Kodowanie arytmetyczne	http://bioinformatics.ua.pt/software/geco/ lub https://pratas.github.io/geco/	GPLv3
PetaSuite	Bezstratne narzędzie do kompresji plików BAM i FASTQ	60% do 90%	Sekwencje ludzkiego genomu z projektu 1000 genomów		https://www.petagene.com	Handlowy
Kodeki GenomSys	Bezstratna kompresja plików BAM i FASTQ do standardowego formatu ISO/IEC 23092 (MPEG-G)	60% do 90%	Sekwencje ludzkiego genomu z projektu 1000 genomów	Dostosowujące się do kontekstu binarne kodowanie arytmetyczne (CABAC)	https://www.genomsys.com	Handlowy
dżin	Transkodowanie między formatami FASTA, FASTQ i SAM/BAM oraz formatem ISO/IEC 23092 (MPEG-G)	[W budowie]	[W budowie]	Dostosowujące się do kontekstu binarne kodowanie arytmetyczne (CABAC)	https://github.com/mitogen/genie	BSD

Narzędzia do kompresji danych do sekwencjonowania genomu nie są kompatybilne ze standardowymi formatami plików do sekwencjonowania genomu
Oprogramowanie	Opis	Stopień sprężania	Dane wykorzystywane do oceny	Podejście/Schemat kodowania	Połączyć	Użyj licencji
Kompresor różnicowy genomu (GDC)	Narzędzie w stylu LZ77 do kompresji wielu genomów tego samego gatunku	Od 180 do 250 razy / od 70 do 100 razy	Sekwencja genomu jądrowego człowieka i Saccharomyces cerevisiae	kodowanie Huffmana	http://sun.aei.polsl.pl/gdc	GPLv2
Ponowne sekwencjonowanie genomu (GRS)	Narzędzie oparte na sekwencji referencyjnej, niezależne od referencyjnej mapy SNP lub informacji o zmienności sekwencji	159-krotnie / 18133-krotnie / 82-krotnie	Sekwencja genomu jądrowego człowieka, Arabidopsis thaliana (różne wersje tego samego genomu) i Oryza sativa	kodowanie Huffmana	https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/	bezpłatnie do użytku niekomercyjnego
Kodowanie ponownego sekwencjonowania genomu (GreEN)	Narzędzie oparte na probabilistycznym modelu kopiowania do kompresji danych ponownego sekwencjonowania przy użyciu sekwencji referencyjnej	~100-krotnie	Sekwencja ludzkiego genomu jądrowego	Kodowanie arytmetyczne	http://bioinformatics.ua.pt/software/green/	-Niezgłoszony-
DNAzip	Pakiet narzędzi do kompresji	~ 750-krotnie	Sekwencja ludzkiego genomu jądrowego	kodowanie Huffmana	http://www.ics.uci.edu/~dnazip/	-Niezgłoszony-
GenomeZip	Kompresja w odniesieniu do genomu odniesienia. Opcjonalnie wykorzystuje zewnętrzne bazy danych wariacji genomowych (np. dbSNP)	~ 1200-krotnie	Sekwencja ludzkiego genomu jądrowego (Watson) i sekwencje z projektu 1000 genomów	Kodowanie entropijne dla przybliżeń rozkładów empirycznych	https://sourceforge.net/projects/genomezip/	-Niezgłoszony-