DeMix
DeMix to statystyczna metoda dekonwolucji mieszanych transkryptomów raka w celu przewidywania prawdopodobnej proporcji próbek komórek guza i zrębu przy użyciu liniowego modelu mieszaniny. Został opracowany przez Ahna i in .
Demix wyraźnie rozważa cztery możliwe scenariusze: dopasowane próbki guza i próbki normalne, z genami referencyjnymi ; dopasowane próbki guza i normalne, bez genów referencyjnych; niedopasowane próbki guza i normalne, z genami referencyjnymi; oraz niedopasowane próbki guza i normalne, bez genów referencyjnych.
Geny referencyjne to zestaw genów , dla których profile ekspresji zostały dokładnie oszacowane na podstawie danych zewnętrznych we wszystkich typach tkanek tworzących.
Wstęp
guzów litych uzyskane w praktyce klinicznej są wysoce niejednorodne . Składają się z wielu klonalnych populacji komórek rakowych, jak również sąsiadujących normalnych tkanek, zrębu i naciekających komórek odpornościowych . Wysoce niejednorodna struktura tkanek nowotworowych może skomplikować lub zniekształcić różne analizy danych genomowych. Usunięcie heterogeniczności ma zasadnicze znaczenie dla wyizolowania danych dotyczących ekspresji z próbek mieszanych in silico .
Przed analizą ważne jest oszacowanie i uwzględnienie czystości guza lub odsetka komórek nowotworowych w próbce guza. Dzięki wyraźnym różnicom między komórkami nowotworowymi a normalnymi możliwe jest oszacowanie czystości guza na podstawie danych genomowych lub epigenomicznych o dużej przepustowości.
DeMix szacuje proporcję i profil ekspresji genów z komórek nowotworowych w mieszanych próbkach. W tej metodzie zakłada się, że mieszana próbka składa się tylko z dwóch typów komórek: komórek nowotworowych (bez znanego profilu ekspresji genów z góry) i komórek normalnych (ze znanymi danymi dotyczącymi ekspresji genów, które mogą pochodzić z próbek dopasowanych do guza lub niedopasowanych) ).
DeMix został opracowany dla danych z mikromacierzy i pokazuje, że ważne było użycie nieprzetworzonych danych jako danych wejściowych, zakładając, że mają one rozkład logarytmiczno-normalny, jak ma to miejsce w przypadku mikromacierzy, zamiast pracować z danymi przekształconymi w logarytm, jak to miało miejsce w przypadku większości innych metod. DeMix szacuje wariancję ekspresji genów w normalnych próbkach i wykorzystuje to w oszacowaniu maksymalnego prawdopodobieństwa do przewidywania ekspresji i proporcji genów w komórkach nowotworowych, wykorzystując w ten sposób niejawnie specyficzną dla genu wagę dla każdego genu.
DeMix to pierwsza metoda śledzenia liniowej mieszaniny poziomów ekspresji genów w danych przed ich transformacją logarytmiczną. Ta metoda analizuje dane z heterogenicznych próbek guza, zanim dane zostaną przekształcone logarytmicznie, szacuje indywidualne poziomy ekspresji w każdej próbce i każdym genie w niezrównanym projekcie.
metoda
Niech i będzie poziomem ekspresji genu g i próbki czystych tkanek normalnych i nowotworowych. reprezentuje _ _ Gdy pogorszenia dokładności. Poziom ekspresji z tkanki . Niech oznacza poziom ekspresji próbki guza pochodzenia klinicznego, który jest obserwowany. Niech , oznacza proporcję tkanki nowotworowej w próbce . Surowe zmierzone dane są zapisywane jako równanie liniowe jako
Zauważ, że nie jest zgodny z , gdy zarówno T podążaj za rozkładem normalnym
Metoda DeMix składa się głównie z dwóch etapów:
Krok 1: Biorąc pod uwagę s zaobserwowania zmaksymalizowane w celu wyszukania .
Krok 2: Biorąc pod uwagę 's i rozkład 's i , pojedyncza para jest szacowany dla każdej próbki i każdego genu.
Kroki te są następnie dostosowywane do określonych scenariuszy danych.
DeMix został opracowany przy użyciu procedury optymalizacji Neldera-Meada , która obejmuje numeryczne całkowanie gęstości spoiny. DeMix stosuje podejście dwuetapowe, najpierw szacując s, a następnie oceniając i wariancje ekspresji genów na podstawie s. Model stawu, który jednocześnie szacuje wszystkie parametry , będzie mógł dalej uwzględniać miarę niepewności proporcji tkanek. Jednak etap szacowania z takiego modelu może wymagać dużej mocy obliczeniowej i może nie nadawać się do analizy danych o dużej przepustowości.
Stosowanie
DeMix obejmuje cztery scenariusze danych: z genem referencyjnym lub bez niego oraz dopasowanym lub niedopasowanym projektem. Chociaż algorytm wymaga co najmniej jednego genu jako genu odniesienia, zaleca się użycie co najmniej 5 do 10 genów, aby złagodzić potencjalny wpływ wartości odstających i zidentyfikować optymalny zestaw s . DeMix zakłada, że zmieszana próbka składa się co najwyżej z dwóch przedziałów komórkowych: normalnego i nowotworowego, oraz że parametry dystrybucji normalnych komórek można oszacować na podstawie innych dostępnych danych. W innych sytuacjach może być potrzebne bardziej złożone modelowanie.