N50, L50 i powiązane statystyki

W biologii obliczeniowej N50 i L50 to statystyki zbioru długości kontigów lub rusztowań . N50 jest podobny do średniej lub mediany długości, ale ma większą wagę przypisaną dłuższym kontigom. Jest szeroko stosowany w składaniu genomu , zwłaszcza w odniesieniu do długości kontigów w projekcie zespołu. Istnieją również powiązane U50 , UL50 , UG50 , UG50% , N90 statystyki , NG50 i D50 .

Aby zapewnić lepszą ocenę wyników montażu dla zestawów danych wirusów i drobnoustrojów, należy zastosować nową metrykę o nazwie U50 . U50 identyfikuje unikalne, specyficzne dla celu kontigi, wykorzystując genom odniesienia jako punkt odniesienia, mając na celu obejście pewnych ograniczeń, które są nieodłącznie związane z metryką N50 . Zastosowanie U50 pozwala na dokładniejszy pomiar wydajności montażu poprzez analizę tylko unikalnych, nienakładających się kontigów. Większość sekwencjonowania wirusów i drobnoustrojów ma wysoki szum tła (tj. gospodarza i innych niebędących obiektami docelowymi), co przyczynia się do wypaczonego, błędnego przedstawienia N50 - to jest korygowane przez U50 .

Definicja

N50

Statystyka N50 definiuje jakość montażu w kategoriach przylegania . Biorąc pod uwagę zestaw kontigów, N50 definiuje się jako długość sekwencji najkrótszego kontigu na 50% całkowitej długości zespołu. Można to traktować jako punkt połowy masy rozkładu; liczba zasad ze wszystkich kontigów dłuższych niż N50 będzie zbliżona do liczby zasad ze wszystkich kontigów krótszych niż N50 . Rozważmy na przykład 9 kontigów o długościach 2,3,4,5,6,7,8,9 i 10; ich suma wynosi 54, połowa sumy to 27, a rozmiar genomu również wynosi 54. 50% tego zestawu to 10 + 9 + 8 = 27 (połowa długości sekwencji). Zatem N50=8, czyli rozmiar kontigu, który wraz z większymi kontigami zawiera połowę sekwencji określonego genomu. Uwaga: Przy porównywaniu wartości N50 z różnych złożeń rozmiary zespołów muszą być tego samego rozmiaru, aby N50 miało znaczenie.

N50 można opisać jako ważoną medianę statystyki, tak że 50% całego zespołu jest zawarte w kontigach lub rusztowaniach równych lub większych od tej wartości.

50 zł

Biorąc pod uwagę zestaw kontigów, każdy o własnej długości, L50 definiuje się jako liczbę najmniejszych kontigów, których suma długości stanowi połowę wielkości genomu. Z powyższego przykładu L50=3.

N90

Statystyka N90 jest mniejsza lub równa statystyce N50 ; jest to długość, dla której zbiór wszystkich kontigów o tej długości lub dłuższych zawiera co najmniej 90% sumy długości wszystkich kontigów.

NG50

Należy zauważyć, że N50 jest obliczane w kontekście rozmiaru zestawu, a nie rozmiaru genomu. Dlatego porównania wartości N50 pochodzących z zespołów o znacząco różnych długościach zwykle nie są pouczające, nawet jeśli dotyczą tego samego genomu. Aby temu zaradzić, autorzy konkursu Assemblathon wymyślili nowy środek o nazwie NG50 . Statystyka NG50 jest taka sama jak statystyka N50 z wyjątkiem tego, że 50% znanego lub szacowanego rozmiaru genomu musi mieć długość NG50 lub większą. Pozwala to na sensowne porównania między różnymi zespołami. W typowym przypadku, gdy rozmiar zespołu nie jest większy niż rozmiar genomu, statystyka NG50 nie będzie większa niż statystyka N50.

D50

Statystyka D50 (nazywana również testem D50 ) jest podobna w definicji do statystyki N50 , chociaż generalnie nie jest używana do opisywania zespołów genomu. Statystyka D50 jest najmniejszą wartością d , dla której suma długości największych d długości wynosi co najmniej 50% sumy wszystkich długości.

U50

U50 jest długością najmniejszego kontigu, tak że 50% sumy wszystkich unikalnych, specyficznych dla celu kontigów jest zawartych w kontigach o rozmiarze U50 lub większym.

UL50

UL50 to liczba kontigów, których suma długości daje U50.

UG50

UG50 to długość najmniejszego kontigu, tak że 50% genomu odniesienia jest zawarte w unikalnych, specyficznych dla celu kontigach o rozmiarze UG50 lub większym.

UG50%

UG50% to szacowana procentowa długość pokrycia UG50 w bezpośrednim stosunku do długości genomu odniesienia. Obliczenie to (100 × (UG50/długość genomu referencyjnego). UG50% , jako wskaźnik procentowy, można wykorzystać do porównania wyników składania z różnych próbek lub badań.

Przykłady

Rozważmy dwa fikcyjne, bardzo uproszczone zespoły genomów, A i B, które pochodzą od dwóch różnych gatunków. Zespół A zawiera sześć kontigów o długości 80 kpz , 70 kb/s, 50 kb/s, 40 kb/s, 30 kb/s i 20 kb/s. Suma rozmiaru zespołu A wynosi 290 kbp, długość kontigu N50 wynosi 70 kbp, ponieważ 80 + 70 jest większe niż 50% z 290, a liczba kontigów L50 wynosi 2 kontigi. Długości kontigów zespołu B są takie same jak w zespole A, z wyjątkiem obecności dwóch dodatkowych kontigów o długości 10 kbp i 5 kbp. Rozmiar zespołu B wynosi 305 kbp, długość kontigu N50 spada do 50 kbp, ponieważ 80 + 70 + 50 jest większe niż 50% z 305, a liczba kontigów L50 wynosi 3 kontigi. Ten przykład ilustruje, że czasami można zwiększyć długość N50 po prostu usuwając niektóre z najkrótszych kontigów lub rusztowań z zespołu.

Jeśli oszacowana lub znana wielkość genomu fikcyjnego gatunku A wynosi 500 kbp, to długość kontigu NG50 wynosi 30 kbp, ponieważ 80 + 70 + 50 + 40 + 30 jest większe niż 50% z 500. W przeciwieństwie do tego, jeśli oszacowana lub znany rozmiar genomu gatunku B wynosi 350 kbp, to ma długość kontigu NG50 równą 50 kbp, ponieważ 80 + 70 + 50 jest większe niż 50% z 350.

Obliczenia alternatywne

N50 można znaleźć matematycznie dla listy L dodatnich liczb całkowitych w następujący sposób:

Utwórz kolejną listę L' , która jest identyczna z listą L , z tą różnicą, że każdy element n w L został zastąpiony n kopiami samego siebie.
Mediana L ' to N50 L. _ (10% kwantyl L ' to statystyka N90 ).

Na przykład: jeśli L = (2, 2, 2, 3, 3, 4, 8, 8), to L' składa się z sześciu dwójek, sześciu trójek, czterech czwórek i szesnastu ósemek. Oznacza to, że L' ma dwa razy więcej dwójek niż L ; ma trzy razy więcej trójek niż L ; ma cztery razy więcej czwórek; itd. Mediana 32-elementowego zbioru L' jest średnią 16. najmniejszego elementu, 4, i 17. najmniejszego elementu, 8, więc N50 wynosi 6. Widzimy, że suma wszystkich wartości na liście L , które są mniejsze lub równe N50 z 6 to 16 = 2+2+2+3+3+4, a suma wszystkich wartości na liście L , które są większe lub równe 6, również wynosi 16 = 8+8. Dla porównania z N50 równym 6 zauważ, że średnia z listy L wynosi 4, podczas gdy mediana wynosi 3. Podsumowując w bardziej wizualny sposób, mamy:

Wartości listy L = (2, 2, 2, 3, 3, 4, 8, 8)

Wartości nowej listy L' = (2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 )

Rzędy wartości L' = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

Arachne wiki w Broad Institute
Miller, JR; Koren, S; Sutton, G. (2010). „Algorytmy składania danych sekwencjonowania nowej generacji” . Genomika . 95 (6): 315–327. doi : 10.1016/j.ygeno.2010.03.001 . PMC 2874646 . PMID 20211242 .
hrabia, D; Bradnam, K; Św. Jan, J; Kochanie, A; Lin, D; Fass, J.; Yu, HOK; Buffalo, V; Zerbino, DR; Diekhans, M; Nguyen, N; Ariyaratne, PN; Śpiewane, WK; Ning, Z; Haimel, M; Simpson, JT; Fonseca, NA; Birol, I; Dokowanie, TR; Ho, IY; Rokhsar, DS; Chikhi, R; Lavenier, D; Chapuis, G; Naquin, D; Maillet, N; Schatz, MC; Kelley, DR; Phillippy, AM; Koren, S (2011). „Assemblathon 1: konkurencyjna ocena metod montażu krótkich odczytów de novo” . Badania genomu . 21 (12): 2224–2241. doi : 10.1101/gr.126599.111 . PMC 3227110 . PMID 21926179 .
Wpis na blogu L50-vs-N50 (7 października 2015 r.)

Zobacz też

Indeks Herfindahla-Hirschmana

Linki zewnętrzne

contig_info : Narzędzie do szacowania standardowych statystyk opisowych z sekwencji kontigowych, np. N(G)50 , N(G)75, N(G)90 , L(G)50 , L(G)75, L(G)90, auN ...