ŁÓŻKO (format pliku)
Rozszerzenie nazwy pliku |
.łóżko
|
---|---|
Rodzaj mediów internetowych |
tekst/x łóżko
|
Typ formatu | Plik tekstowy |
Strona internetowa | https://samtools.github.io/hts-specs/BEDv1.pdf |
Format BED ( Browser Extensible Data ) to format pliku tekstowego używany do przechowywania regionów genomowych jako współrzędnych i powiązanych adnotacji . Dane prezentowane są w postaci kolumn oddzielonych spacjami lub tabulatorami. Ten format został opracowany podczas projektu Human Genome Project , a następnie przyjęty przez inne projekty sekwencjonowania. W wyniku tego coraz szerszego zastosowania format ten stał się już de facto standardem w bioinformatyce przed napisaniem formalnej specyfikacji.
Jedną z zalet tego formatu jest manipulowanie współrzędnymi zamiast sekwencji nukleotydów , co optymalizuje moc i czas obliczeń podczas porównywania całości lub części genomów. Ponadto jego prostota ułatwia manipulowanie i odczytywanie (lub analizowanie ) współrzędnych lub adnotacji przy użyciu edytorów tekstu i języków skryptowych , takich jak Python , Ruby lub Perl lub bardziej specjalistycznych narzędzi, takich jak BEDTools.
Historia
Pod koniec XX wieku pojawiły się pierwsze projekty sekwencjonowania całych genomów . Wśród tych projektów najbardziej ambitny był wówczas Human Genome Project , którego celem było po raz pierwszy sekwencjonowanie genomu kilku gigabaz . Wymagało to od ośrodków sekwencjonowania przeprowadzenia znacznego rozwoju metodologicznego w celu zautomatyzowania przetwarzania sekwencji i ich analiz. W ten sposób powstało wiele formatów, takich jak FASTQ , GFF lub ŁÓŻKO. Jednak w tamtym czasie nie opublikowano żadnych oficjalnych specyfikacji, co wpłynęło na niektóre formaty, takie jak FASTQ, gdy projekty sekwencjonowania mnożyły się na początku XXI wieku.
Jego szerokie zastosowanie w przeglądarkach genomu umożliwiło zdefiniowanie tego formatu w stosunkowo stabilny sposób, ponieważ opis ten jest używany przez wiele narzędzi.
Format
Początkowo format BED nie miał żadnej oficjalnej specyfikacji. Zamiast tego, opis dostarczony przez UCSC Genome Browser był szeroko stosowany jako odniesienie.
Formalna specyfikacja BED została opublikowana w 2021 roku pod auspicjami Global Alliance for Genomics and Health .
Opis
Plik BED składa się z co najmniej trzech kolumn, do których można dodać dziewięć opcjonalnych kolumn, co daje w sumie dwanaście kolumn. Pierwsze trzy kolumny zawierają nazwy chromosomów lub rusztowań , początek i koniec rozważanych sekwencji. Kolejne dziewięć kolumn zawiera adnotacje związane z tymi sekwencjami. Kolumny te muszą być oddzielone spacjami lub tabulatorami , przy czym te ostatnie są zalecane ze względu na kompatybilność między programami. Każdy wiersz pliku musi mieć taką samą liczbę kolumn. Kolejność kolumn musi być zachowana: jeśli używane są kolumny z wysokimi liczbami, kolumny z liczbami pośrednimi muszą być wypełnione.
Numer kolumny | Tytuł | Definicja |
---|---|---|
1 | chrom | chromosomu (np. chr3, chrY, chr2_random) lub rusztowania (np. scaffold10671) |
2 | chromStart | Współrzędna początkowa na chromosomie lub rusztowaniu dla rozważanej sekwencji (pierwsza zasada na chromosomie ma numer 0) |
3 | chrom Koniec | Współrzędna końcowa na chromosomie lub rusztowaniu dla rozważanej sekwencji. Ta pozycja nie jest inkluzywna, w przeciwieństwie do chromStart. |
4 | nazwa | Nazwa linii w pliku BED |
5 | wynik | Wynik od 0 do 1000 |
6 | pasmo | Orientacja nici DNA (dodatnia ["+"] lub ujemna ["-"] lub "." jeśli nici nie ma) |
7 | grubyStart | , od której adnotacja jest wyświetlana w grubszy sposób na reprezentacji graficznej (np.: kodon startowy genu ) |
8 | grubyKoniec | Współrzędne końcowe, od których adnotacja nie jest już wyświetlana w grubszy sposób na reprezentacji graficznej (np.: kodon stop genu) |
9 | elementRgb | RGB w postaci R,G,B (np. 255,0,0) określająca kolor wyświetlania adnotacji zawartej w pliku BED |
10 | liczba bloków | Liczba bloków (np. eksonów ) w linii pliku BED |
11 | Rozmiary bloków | Lista wartości oddzielonych przecinkami odpowiadających rozmiarowi bloków (liczba wartości musi odpowiadać liczbie „blockCount”) |
12 | blokStarts | Lista wartości oddzielonych przecinkami odpowiadających początkowym współrzędnym bloków, współrzędne obliczone względem tych znajdujących się w kolumnie chromStart (liczba wartości musi odpowiadać liczbie "blockCount") |
nagłówek
Plik BED może opcjonalnie zawierać nagłówek . Nie ma jednak oficjalnego opisu formatu nagłówka. Może zawierać jedną lub więcej linii i być oznaczony różnymi słowami lub symbolami, w zależności od jego funkcji funkcjonalnej lub po prostu opisowej. Tak więc wiersz nagłówka może zaczynać się od tych słów lub symboli:
- „browser”: nagłówek funkcjonalny używany przez UCSC Genome Browser do ustawiania związanych z nim opcji,
- „track”: funkcjonalny nagłówek używany przez przeglądarki genomu do określania opcji wyświetlania z nim związanych,
- „#”: opisowy nagłówek do dodawania komentarzy, takich jak nazwa każdej kolumny.
System współrzędnych
W przeciwieństwie do układu współrzędnych używanego w innych standardach, takich jak GFF , system używany w formacie BED jest oparty na zerze dla początku współrzędnych i oparty na jedynki dla końca współrzędnych. Zatem nukleotyd o współrzędnej 1 w genomie będzie miał wartość 0 w kolumnie 2 i wartość 1 w kolumnie 3.
Interwał BED o tysiącach zasad z następującym początkiem i końcem:
chr7 0 1000
przekształciłby się w następujące współrzędne „ludzkiego” genomu oparte na 1, używane przez przeglądarkę genomu, taką jak UCSC:
7 chr 1 1000
Wybór ten jest uzasadniony metodą obliczania długości rozpatrywanych regionów genomowych, polegającą na prostym odejmowaniu współrzędnych końca (kolumna 3) przez współrzędne początku (kolumna 2) . Kiedy układ współrzędnych jest oparty na użyciu 1 do wyznaczenia pierwszej pozycji, obliczenia stają się nieco bardziej złożone: . Ta niewielka różnica może mieć stosunkowo duży wpływ na czas obliczeń, gdy zestawy danych zawierające kilka tysięcy do setek tysięcy wierszy.
Alternatywnie możemy postrzegać obie współrzędne jako oparte na zerze, gdzie pozycja końcowa nie obejmuje. Innymi słowy, pozycja końcowa liczona od zera oznacza indeks pierwszej pozycji po elemencie. W powyższym przykładzie pozycja końcowa liczona od zera 1000 oznacza pierwszą pozycję po elemencie, w tym pozycje od 0 do 999.
Przykłady
Oto minimalny przykład:
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
Oto typowy przykład z dziewięcioma kolumnami z UCSC Genome Browser . Pierwsze trzy wiersze to ustawienia przeglądarki genomu UCSC i nie są powiązane z danymi określonymi w formacie BED:
pozycja przeglądarki chr7:127471196-127495720 przeglądarka ukryj wszystko nazwa ścieżki="ItemRGBDemo" opis="Demonstracja elementu RGB" widoczność=2 itemRgb="Wł." 472363 127473530 Poz.2 0+ 127472363 127473530 255,0,0 kan7 127473530 127474697 Poz3 0 + 127473530 127474697 255,0,0 kan7 127474697 127475864 Poz4 0 + 12747 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 12747 9365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
Rozszerzenie pliku
Obecnie nie ma standardowego rozszerzenia pliku dla plików BED, ale najczęściej używane jest rozszerzenie „.bed”. Liczba kolumn jest czasami zapisywana w rozszerzeniu pliku, na przykład: „.bed3”, „.bed4”, „.bed6”, „.bed12”.
Stosowanie
Korzystanie z plików BED rozprzestrzeniło się szybko wraz z pojawieniem się nowych technik sekwencjonowania i manipulacją coraz większymi plikami sekwencji . Porównanie sekwencji genomowych lub nawet całych genomów poprzez porównanie samych sekwencji może szybko wymagać znacznych zasobów obliczeniowych i stać się czasochłonne. Obsługa plików BED sprawia, że ta praca jest bardziej wydajna dzięki użyciu współrzędnych do wyodrębnienia sekwencji będących przedmiotem zainteresowania z zestawów sekwencjonowania lub do bezpośredniego porównania i manipulowania dwoma zestawami współrzędnych.
Aby wykonać te zadania, można użyć różnych programów do manipulowania plikami BED, w tym między innymi:
- Przeglądarki genomu : z plików BED umożliwiają wizualizację i ekstrakcję sekwencji aktualnie zsekwencjonowanych genomów ssaków (np. funkcja Manage Custom Tracks w UCSC Genome Browser ).
- Galaxy : platforma internetowa .
- Narzędzia wiersza poleceń:
- BEDTools: program umożliwiający manipulację zestawami współrzędnych i wyodrębnianie sekwencji z pliku BED.
- BEDOPS: zestaw narzędzi do szybkich operacji boolowskich na plikach BED.
- BedTk: szybsza alternatywa dla BEDTools dla ograniczonego i wyspecjalizowanego podzbioru operacji.
- covtobed: narzędzie do konwersji pliku BAM na ścieżkę pokrycia BED.
Pliki .genome
BEDtools wykorzystuje również pliki .genome
do określenia granic chromosomów i zapewnienia, że operacje dopełniania nie wykraczają poza granice chromosomów. Pliki genomu są sformatowane jak pokazano poniżej, dwukolumnowy plik oddzielony tabulatorami z jednowierszowym nagłówkiem.
rozmiar chromu chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 ...