Kompresja danych sekwencjonowania genomu

sekwencjonowania o wysokiej przepustowości doprowadziły do ​​dramatycznego spadku kosztów sekwencjonowania genomu i zadziwiająco szybkiego gromadzenia danych genomowych. Technologie te umożliwiają ambitne przedsięwzięcia w zakresie sekwencjonowania genomu, takie jak Projekt 1000 Genomów i Projekt 1001 Genomów ( Arabidopsis thaliana ). Przechowywanie i przesyłanie ogromnej ilości danych genomowych stało się powszechnym problemem, motywującym rozwój wysokowydajnych narzędzi do kompresji zaprojektowanych specjalnie dla danych genomicznych. Niedawny wzrost zainteresowania rozwojem nowych algorytmów i narzędzi do przechowywania i zarządzania danymi ponownego sekwencjonowania genomu podkreśla rosnące zapotrzebowanie na wydajne metody kompresji danych genomowych.

Pojęcia ogólne

Podczas gdy standardowe narzędzia do kompresji danych (np. zip i rar) są używane do kompresji danych sekwencji (np. baza danych GenBank ), podejście to było krytykowane jako ekstrawaganckie, ponieważ sekwencje genomowe często zawierają powtarzalną zawartość (np. sekwencje mikrosatelitarne) lub wiele sekwencji wykazuje wysoki poziom podobieństwa (np. wiele sekwencji genomu z tego samego gatunku). Ponadto statystyczne i informacyjne właściwości sekwencji genomowych można potencjalnie wykorzystać do kompresji danych sekwencjonowania.

Rycina 1: Główne etapy przepływu pracy w celu kompresji danych ponownego sekwencjonowania genomu: (1) przetwarzanie oryginalnych danych sekwencjonowania (np. redukcja oryginalnego zestawu danych tylko do zmian w stosunku do określonej sekwencji referencyjnej; (2) kodowanie przetworzonych danych do postaci binarnej oraz (3) dekodowanie danych z powrotem do postaci tekstowej.

Warianty bazowe

Przy dostępności matrycy referencyjnej należy rejestrować tylko różnice (np. substytucje i insercje/delecje pojedynczych nukleotydów), co znacznie zmniejsza ilość przechowywanych informacji. Pojęcie względnej kompresji jest oczywiste, zwłaszcza w projektach ponownego sekwencjonowania genomu, których celem jest odkrycie różnic w poszczególnych genomach. Zastosowanie referencyjnej mapy polimorfizmu pojedynczego nukleotydu ( SNP ), takiej jak dbSNP , może być wykorzystane do dalszej poprawy liczby wariantów do przechowywania.

Względne współrzędne genomowe

Innym przydatnym pomysłem jest przechowywanie względnych współrzędnych genomowych zamiast bezwzględnych współrzędnych. Na przykład, reprezentując podstawy wariantów sekwencji w formacie „ Pozycja1Base1Pozycja2Base2… ”, „123C125T130G” można skrócić do „0C2T5G”, gdzie liczby całkowite reprezentują odstępy między wariantami. Koszt to skromne obliczenie arytmetyczne wymagane do odzyskania współrzędnych bezwzględnych plus przechowywanie współczynnika korekcji (w tym przykładzie „123”).

Wstępne informacje o genomach

Dalszą redukcję można osiągnąć, jeśli wszystkie możliwe pozycje podstawień w puli sekwencji genomu są znane z wyprzedzeniem. Na przykład, jeśli znane są wszystkie lokalizacje SNP w populacji ludzkiej, nie ma potrzeby rejestrowania informacji o współrzędnych wariantu (np. „123C125T130G” można skrócić do „CTG”). Takie podejście jest jednak rzadko właściwe, ponieważ takie informacje są zwykle niekompletne lub niedostępne.

Kodowanie współrzędnych genomowych

kodowania są używane do konwersji liczb całkowitych współrzędnych na postać binarną, aby zapewnić dodatkowe wzmocnienia kompresji. Projekty kodowania, takie jak kod Golomba i kod Huffmana , zostały włączone do narzędzi do kompresji danych genomowych. Oczywiście schematy kodowania pociągają za sobą towarzyszące im algorytmy dekodowania. Wybór schematu dekodowania potencjalnie wpływa na efektywność wyszukiwania informacji o sekwencji.

Wybór projektu algorytmu

Uniwersalne podejście do kompresji danych genomowych niekoniecznie musi być optymalne, ponieważ konkretna metoda może być bardziej odpowiednia do określonych celów i celów. W związku z tym warto rozważyć kilka wyborów projektowych, które potencjalnie wpływają na wydajność kompresji.

Sekwencja referencyjna

Wybór sekwencji odniesienia dla kompresji względnej może wpłynąć na wydajność kompresji. Wybór konsensusowej sekwencji referencyjnej zamiast bardziej specyficznej sekwencji referencyjnej (np. poprawionej sekwencji referencyjnej Cambridge ) może skutkować wyższym stopniem kompresji, ponieważ konsensusowe odniesienie może zawierać mniej błędów systematycznych w swoich danych. Wiedza o źródle sekwencji poddawanej kompresji może być jednak wykorzystana do uzyskania większych wzmocnień kompresji. Zaproponowano pomysł wykorzystania wielu sekwencji odniesienia. Brandona i in. jako przykład kompresję danych wariantów mitochondrialnego DNA (patrz ryc. 2). Autorzy stwierdzili tendencyjną dystrybucję haplotypów w sekwencjach mitochondrialnego DNA Afrykanów, Azjatów i Eurazjatów w stosunku do poprawionej sekwencji referencyjnej Cambridge . Ich wynik sugeruje, że poprawiona sekwencja referencyjna Cambridge może nie zawsze być optymalna, ponieważ należy przechowywać większą liczbę wariantów, gdy jest używana w odniesieniu do danych od osób odległych etnicznie. Dodatkowo sekwencję referencyjną można zaprojektować w oparciu o właściwości statystyczne lub zmodyfikować w celu poprawy współczynnika kompresji.

Schematy kodowania

Zbadano zastosowanie różnych typów schematów kodowania do kodowania wariantów zasad i współrzędnych genomowych. Stałe kody, takie jak kod Golomba i kod Rice'a , są odpowiednie, gdy rozkład wariantu lub współrzędnych (reprezentowany jako liczba całkowita) jest dobrze zdefiniowany. Kody zmienne, takie jak kod Huffmana , zapewniają bardziej ogólny schemat kodowania entropijnego, gdy bazowy wariant i/lub rozkład współrzędnych nie jest dobrze zdefiniowany (zwykle ma to miejsce w przypadku danych sekwencji genomowej).

Lista narzędzi do kompresji danych do ponownego sekwencjonowania genomu

Współczynnik kompresji obecnie dostępnych narzędzi do kompresji danych genomowych waha się od 65-krotności do 1200-krotności dla ludzkich genomów. Bardzo zbliżone warianty lub wersje tego samego genomu można bardzo wydajnie skompresować (na przykład współczynnik kompresji 18 133 odnotowano dla dwóch wersji tego samego genomu A. thaliana, które są w 99,999% identyczne). Jednak taka kompresja nie wskazuje na typowy stopień kompresji dla różnych genomów (osobników) tego samego organizmu. Najpopularniejszym schematem kodowania wśród tych narzędzi jest kodowanie Huffmana , które służy do bezstratnej kompresji danych .

Narzędzia do kompresji danych do sekwencjonowania genomu kompatybilne ze standardowymi formatami plików do sekwencjonowania genomu (BAM i FASTQ)
Oprogramowanie Opis Stopień sprężania Dane wykorzystywane do oceny Podejście/Schemat kodowania Połączyć Użyj licencji Odniesienie
Genozip Uniwersalny kompresor plików genomicznych – kompresuje pliki FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP i 23andMe 60% do 99% Sekwencje ludzkiego genomu z projektu 1000 genomów Rozszerzalny framework Genzip http://genozip.com Komercyjne, ale bezpłatne do użytku niekomercyjnego
Ściśnięcie genomu (G-SQZ) Narzędzie do bezstratnej kompresji przeznaczone do przechowywania i analizowania odczytanych danych sekwencjonowania 65% do 76% Sekwencje ludzkiego genomu z projektu 1000 genomów kodowanie Huffmana http://public.tgen.org/sqz -Niezgłoszony-
CRAM (część SAMtools ) Wysoce wydajna i konfigurowalna kompresja danych sekwencji oparta na referencjach Europejskie Archiwum Nukleotydów spuścić powietrze i rANS http://www.ebi.ac.uk/ena/software/cram-toolkit Apache-2.0
Kompresor genomu (GeCo) Narzędzie wykorzystujące mieszankę wielu modeli Markowa do kompresji sekwencji referencyjnych i bezodniesieniowych Sekwencja ludzkiego genomu jądrowego Kodowanie arytmetyczne http://bioinformatics.ua.pt/software/geco/ lub https://pratas.github.io/geco/ GPLv3
PetaSuite Bezstratne narzędzie do kompresji plików BAM i FASTQ 60% do 90% Sekwencje ludzkiego genomu z projektu 1000 genomów https://www.petagene.com Handlowy
Kodeki GenomSys Bezstratna kompresja plików BAM i FASTQ do standardowego formatu ISO/IEC 23092 (MPEG-G) 60% do 90% Sekwencje ludzkiego genomu z projektu 1000 genomów Dostosowujące się do kontekstu binarne kodowanie arytmetyczne (CABAC) https://www.genomsys.com Handlowy
dżin Transkodowanie między formatami FASTA, FASTQ i SAM/BAM oraz formatem ISO/IEC 23092 (MPEG-G) [W budowie] [W budowie] Dostosowujące się do kontekstu binarne kodowanie arytmetyczne (CABAC) https://github.com/mitogen/genie BSD
Narzędzia do kompresji danych do sekwencjonowania genomu nie są kompatybilne ze standardowymi formatami plików do sekwencjonowania genomu
Oprogramowanie Opis Stopień sprężania Dane wykorzystywane do oceny Podejście/Schemat kodowania Połączyć Użyj licencji Odniesienie
Kompresor różnicowy genomu (GDC) Narzędzie w stylu LZ77 do kompresji wielu genomów tego samego gatunku Od 180 do 250 razy / od 70 do 100 razy Sekwencja genomu jądrowego człowieka i Saccharomyces cerevisiae kodowanie Huffmana http://sun.aei.polsl.pl/gdc GPLv2
Ponowne sekwencjonowanie genomu (GRS) Narzędzie oparte na sekwencji referencyjnej, niezależne od referencyjnej mapy SNP lub informacji o zmienności sekwencji 159-krotnie / 18133-krotnie / 82-krotnie Sekwencja genomu jądrowego człowieka, Arabidopsis thaliana (różne wersje tego samego genomu) i Oryza sativa kodowanie Huffmana https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ bezpłatnie do użytku niekomercyjnego
Kodowanie ponownego sekwencjonowania genomu (GreEN) Narzędzie oparte na probabilistycznym modelu kopiowania do kompresji danych ponownego sekwencjonowania przy użyciu sekwencji referencyjnej ~100-krotnie Sekwencja ludzkiego genomu jądrowego Kodowanie arytmetyczne http://bioinformatics.ua.pt/software/green/ -Niezgłoszony-
DNAzip Pakiet narzędzi do kompresji ~ 750-krotnie Sekwencja ludzkiego genomu jądrowego kodowanie Huffmana http://www.ics.uci.edu/~dnazip/ -Niezgłoszony-
GenomeZip Kompresja w odniesieniu do genomu odniesienia. Opcjonalnie wykorzystuje zewnętrzne bazy danych wariacji genomowych (np. dbSNP) ~ 1200-krotnie Sekwencja ludzkiego genomu jądrowego (Watson) i sekwencje z projektu 1000 genomów Kodowanie entropijne dla przybliżeń rozkładów empirycznych https://sourceforge.net/projects/genomezip/ -Niezgłoszony-