Fabuła wulkanu (statystyki)

Wykres wulkanu przedstawiający dane metabolomiczne . Czerwone strzałki wskazują interesujące miejsca, które wyświetlają zarówno zmiany krotności o dużej wielkości (oś x), jak i wysoką istotność statystyczną (-log 10 wartości p, oś y). Przerywana czerwona linia pokazuje, gdzie p = 0,05 z punktami powyżej linii o p <0,05 i punktami poniżej linii o p > 0,05. Ten wykres jest pokolorowany w taki sposób, że punkty, w których zmiana krotności jest mniejsza niż 2 (log 2 = 1), są pokazane na szaro.

W statystyce wykres wulkanu to rodzaj wykresu punktowego , który służy do szybkiego identyfikowania zmian w dużych zestawach danych składających się z replikowanych danych. Wykreśla istotność w funkcji zmiany krotności odpowiednio na osiach y i x. Te wykresy są coraz bardziej powszechne w omicznych , takich jak genomika , proteomika i metabolomika gdzie często ma się listę wielu tysięcy replikowanych punktów danych między dwoma warunkami i chce się szybko zidentyfikować najbardziej znaczące zmiany. Wykres wulkanu łączy miarę istotności statystycznej z testu statystycznego (np. wartość p z modelu ANOVA ) z wielkością zmiany, umożliwiając szybką wizualną identyfikację tych punktów danych (genów itp.), które wykazują dużą wielkość zmiany, które są również istotne statystycznie .

Wykres wulkanu jest konstruowany przez wykreślenie ujemnego logarytmu wartości p na osi y (zwykle o podstawie 10). Powoduje to, że punkty danych o niskich wartościach p (wysoce znaczących) pojawiają się w górnej części wykresu. Oś x to logarytm zmiany krotności pomiędzy tymi dwoma warunkami. Logarytm zmiany krotności jest używany, aby zmiany w obu kierunkach pojawiały się w równej odległości od środka. Wykreślanie punktów w ten sposób daje dwa obszary zainteresowania na wykresie: te punkty, które znajdują się w górnej części wykresu, które są daleko po lewej lub prawej stronie. Reprezentują one wartości, które wykazują duże zmiany krotności wielkości (stąd są na lewo lub na prawo od środka), a także wysoką istotność statystyczną (stąd są w kierunku góry).

Dodatkowe informacje można dodać, kolorując punkty zgodnie z trzecim wymiarem danych (takim jak intensywność sygnału), ale nie jest to stosowane jednolicie. Wykresy wulkanów są również używane do graficznego przedstawienia analizy istotności kryterium selekcji genów mikromacierzy (SAM), przykładu regularyzacji .

Koncepcję wykresu wulkanu można uogólnić na inne zastosowania, w których oś x jest związana z miarą siły sygnału statystycznego, a oś y z miarą statystycznej istotności sygnału. Na przykład w kliniczno-kontrolnym asocjacji genetycznych , takim jak badanie asocjacji całego genomu , punkt na wykresie wulkanu reprezentuje polimorfizm pojedynczego nukleotydu . Jego wartość x może być logarytmem ilorazu szans , a wartość y może wynosić -log 10 wartości p z testu chi-kwadrat lub statystyki testu chi-kwadrat .

Wykresy wulkanów wykazują charakterystyczny kształt dwóch ramion skierowanych ku górze, ponieważ oś x, tj. leżące u jej podstaw zmiany logarytmiczne 2 -krotne, mają na ogół rozkład normalny , podczas gdy oś y, wartości logarytmiczne 10 -p, mają tendencję do większego znaczenia dla zmian krotności, które odbiegają bardziej silnie od zera. Gęstość rozkładu normalnego przyjmuje postać

.

Więc tego jest

a ujemne jest

która jest parabolą, której ramiona sięgają do góry po lewej i prawej stronie. Górna granica danych to jedna parabola, a dolna granica to kolejna parabola.

Linki zewnętrzne