ANOVA – jednoczesna analiza składowych
W biologii obliczeniowej i bioinformatyce analiza wariancji – jednoczesna analiza składowych ( ASCA lub ANOVA–SCA ) jest metodą dzielącą zmienność i umożliwiającą interpretację tych podziałów metodą SCA, metodą zbliżoną do analizy głównych składowych (PCA ) . Analiza wariancji ( ANOVA ) to zbiór modeli statystycznych i związanych z nimi procedur estymacji wykorzystywanych do analizy różnic. Statystyczna analiza sprzężenia (SCA) to technika stosowana w bioinformatyce do pomiaru kowariancji między parami aminokwasów w dopasowaniu wielu sekwencji białek (MSA).
Ta metoda jest wielowymiarowym , a nawet megazmiennym rozszerzeniem analizy wariancji (ANOVA) . Podział zmienności jest podobny do ANOVA. Każda partycja pasuje do wszystkich zmian wywołanych efektem lub czynnikiem , zwykle reżimem leczenia lub warunkami eksperymentu. Obliczone podziały efektów nazywane są oszacowaniami efektów. Ponieważ nawet oszacowania efektów są wielowymiarowe, interpretacja tych szacunków efektów nie jest intuicyjna. Stosując SCA do oszacowań efektów, uzyskuje się prosty wynik, który można zinterpretować. W przypadku więcej niż jednego efektu metoda ta szacuje efekty w taki sposób, że różne efekty nie są skorelowane.
Detale
W wielu obszarach badawczych obserwuje się coraz większą liczbę zmiennych w zaledwie kilku próbach . Niski stosunek próbki do zmiennej stwarza problemy znane jako współliniowość i osobliwość. Z tego powodu nie można zastosować większości tradycyjnych wielowymiarowych metod statystycznych.
Algorytm ASCA
W tej sekcji szczegółowo opisano sposób obliczania modelu ASCA w przypadku dwóch efektów głównych z jednym efektem interakcji. Deklarowane uzasadnienie łatwo jest rozszerzyć na więcej efektów głównych i więcej efektów interakcji. Jeśli pierwszym skutkiem jest czas, a drugim dawkowanie, istnieje tylko interakcja między czasem a dawką. Zakładamy, że istnieją cztery punkty czasowe i trzy poziomy dawkowania.
Niech X będzie macierzą zawierającą dane. X jest wyśrodkowany na środku, a zatem ma zerowe średnie kolumny . Niech A i B oznaczają efekty główne, a AB interakcję tych efektów. Dwoma głównymi efektami w eksperymencie biologicznym mogą być czas (A) i pH (B), a te dwa efekty mogą oddziaływać na siebie. Projektując takie eksperymenty, kontroluje się efekty główne na kilku (co najmniej dwóch) poziomach. Różne poziomy efektu można określić jako A1, A2, A3 i A4, reprezentujące 2, 3, 4, 5 godzin od rozpoczęcia eksperymentu. To samo dotyczy efektu B, na przykład pH 6, pH 7 i pH 8 można uznać za poziomy efektu.
A i B muszą być zrównoważone, jeśli oszacowania efektu muszą być ortogonalne, a podział unikalny. Matryca E zawiera informacje, które nie są przypisane do żadnego efektu. Partycjonowanie daje następującą notację:
Obliczanie oszacowania efektu głównego A (lub B)
Znajdź wszystkie wiersze odpowiadające efektowi A na poziomie 1 i uśrednij te wiersze. Wynikiem jest wektor . Powtórz to dla innych poziomów efektów. Utwórz nową macierz o tym samym rozmiarze X i umieść obliczone średnie w pasujących wierszach. Oznacza to, że wszystkie wiersze, które odpowiadają efektowi (tj.) A poziom 1, należy podać jako średnią efektu A poziom 1. Po zakończeniu szacowania poziomu efektu należy wykonać SCA. Wyniki tego SCA to odchylenia próbki dla efektu, ważne zmienne tego efektu są w wagach wektora obciążenia SCA.
Obliczanie oszacowania efektu interakcji AB
Szacowanie efektu interakcji jest podobne do szacowania efektów głównych. Różnica polega na tym, że w przypadku oszacowań interakcji wiersze pasujące do efektu A na poziomie 1 są łączone z efektem B na poziomie 1, a wszystkie kombinacje efektów i poziomów są cyklicznie przeglądane. W naszym przykładowym ustawieniu, z czterema punktami czasowymi i trzema poziomami dawkowania, istnieje 12 zestawów interakcji {A1-B1, A1B2, A2B1, A2B2 itd.}. Ważne jest, aby spuścić powietrze (usunąć) efekty główne przed oszacowaniem efektu interakcji.
SCA na partycjach A, B i AB
Jednoczesna analiza składowych jest matematycznie identyczna z PCA, ale różni się semantycznie, ponieważ modeluje różne obiekty lub podmioty w tym samym czasie. Standardowa notacja dla modelu SCA – i PCA – to:
gdzie X to dane, T to wyniki składników, a P to ładunki składników. E to macierz pozostałości lub błędów . Ponieważ ASCA modeluje podziały wariacji według SCA, model oszacowań efektów wygląda następująco:
Zauważ, że każda partycja ma własną macierz błędów. Jednak algebra dyktuje, że w zbalansowanym średnim zestawie danych każdy system dwupoziomowy ma rangę 1. Powoduje to zero błędów, ponieważ dowolną macierz rangi 1 można zapisać jako iloczyn wyniku pojedynczego składnika i wektora ładowania.
Pełny model ASCA z dwoma efektami i interakcją, w tym SCA, wygląda następująco:
Rozkład:
Czas jako efekt
Ponieważ „czas” jest traktowany jako czynnik jakościowy w dekompozycji ANOVA poprzedzającej ASCA, można modelować nieliniową wielowymiarową trajektorię czasu. Przykład tego pokazano na rysunku 10 w tym odnośniku.