Bioinformatyka cytometrii przepływowej
Bioinformatyka cytometrii przepływowej to zastosowanie bioinformatyki do danych cytometrii przepływowej , które obejmuje przechowywanie, pobieranie, organizowanie i analizowanie danych cytometrii przepływowej przy użyciu obszernych zasobów obliczeniowych i narzędzi. Bioinformatyka cytometrii przepływowej wymaga szerokiego wykorzystania i przyczynia się do rozwoju technik statystyki obliczeniowej i uczenia maszynowego . Cytometria przepływowa i pokrewne metody umożliwiają ilościową ocenę wielu niezależnych biomarkerów na dużej liczbie pojedynczych komórek . Szybki wzrost wielowymiarowości i przepustowości danych cytometrii przepływowej, szczególnie w 2000 roku, doprowadził do stworzenia różnorodnych metod analizy obliczeniowej, standardów danych i publicznych baz danych do udostępniania wyników.
Istnieją metody obliczeniowe pomagające we wstępnym przetwarzaniu danych cytometrii przepływowej, identyfikowaniu populacji komórek w nich, dopasowywaniu tych populacji komórek w próbkach oraz przeprowadzaniu diagnozy i odkrywaniu na podstawie wyników poprzednich etapów. W przypadku przetwarzania wstępnego obejmuje to kompensację nakładania się widm, przekształcanie danych w skale sprzyjające wizualizacji i analizie, ocenę danych pod kątem jakości oraz normalizację danych w próbkach i eksperymentach. Do identyfikacji populacji dostępne są narzędzia wspomagające tradycyjną ręczną identyfikację populacji na dwuwymiarowych wykresach rozrzutu (bramkowanie), wykorzystanie redukcji wymiarów do wspomagania bramkowania oraz automatyczne znajdowanie populacji w przestrzeni wielowymiarowej na różne sposoby. Możliwe jest również charakteryzowanie danych w bardziej kompleksowy sposób, na przykład partycjonowania przestrzeni binarnej sterowanej gęstością , znaną jako kategoryzacja prawdopodobieństwa lub bramkowanie kombinatoryczne. Wreszcie, diagnostyka z wykorzystaniem danych z cytometrii przepływowej może być wspomagana nadzorowanego uczenia się i odkrywania nowych typów komórek o znaczeniu biologicznym za pomocą wysokowydajnych metod statystycznych, jako część potoków obejmujących wszystkie wyżej wymienione metody.
Otwarte standardy , dane i oprogramowanie są również kluczowymi elementami bioinformatyki cytometrii przepływowej. Standardy danych obejmują szeroko przyjęty standard cytometrii przepływowej (FCS) określający sposób przechowywania danych z cytometrów, ale także kilka nowych standardów opracowywanych przez Międzynarodowe Towarzystwo Postępu Cytometrii (ISAC) w celu ułatwienia przechowywania bardziej szczegółowych informacji na temat projektu eksperymentu i kroki analityczne. Otwarte dane powoli rosną wraz z otwarciem bazy danych CytoBank w 2010 r. i FlowRepository w 2012 r., z których oba umożliwiają użytkownikom swobodną dystrybucję swoich danych, a ten ostatni został rekomendowany jako preferowane repozytorium danych zgodnych z MIFlowCyt przez ISAC . Otwarte oprogramowanie jest najczęściej dostępne w postaci pakietu Bioconductor , ale jest również dostępne do wykonania w Internecie na platformie GenePattern .
Zbieranie danych
Cytometry przepływowe działają na zasadzie hydrodynamicznego ogniskowania zawieszonych komórek, tak że oddzielają się one od siebie w strumieniu płynu. Strumień jest badany przez jeden lub więcej laserów, a powstałe fluorescencyjne i rozproszone jest wykrywane przez fotopowielacze . Za pomocą filtrów optycznych poszczególne fluorofory znajdujące się na komórkach lub w komórkach można określić ilościowo na podstawie pików w ich widmach emisyjnych . Mogą to być endogenne fluorofory , takie jak chlorofil lub transgeniczne zielone białko fluorescencyjne , lub sztuczne fluorofory związane kowalencyjnie z cząsteczkami detekcyjnymi, takimi jak przeciwciała do wykrywania białek lub sondy hybrydyzacyjne do wykrywania DNA lub RNA .
Możliwość ich ilościowego określenia doprowadziła do wykorzystania cytometrii przepływowej w szerokim zakresie zastosowań, w tym między innymi:
- Monitorowanie liczby CD4 w HIV
- Diagnostyka różnych nowotworów
- Analiza mikrobiomów wodnych
- Sortowanie nasienia
- Pomiar długości telomerów
Do początku XXI wieku cytometria przepływowa mogła mierzyć tylko kilka markerów fluorescencyjnych na raz. Jednak od późnych lat 90. do połowy 2000 r. szybki rozwój nowych fluoroforów zaowocował nowoczesnymi instrumentami zdolnymi do ilościowego określenia do 18 markerów na komórkę. Niedawno nowa technologia cytometrii mas zastępuje fluorofory pierwiastkami ziem rzadkich wykrywanymi za pomocą spektrometrii masowej czasu przelotu , uzyskując możliwość pomiaru ekspresji 34 lub więcej markerów. Jednocześnie mikroprzepływowe metody qPCR zapewniają podobną do cytometrii przepływowej metodę ilościowego oznaczania 48 lub więcej cząsteczek RNA na komórkę. Szybki wzrost wymiarowości danych cytometrii przepływowej w połączeniu z rozwojem platform robotów o wysokiej przepustowości, zdolnych do automatycznego oznaczania setek do tysięcy próbek, stworzył potrzebę ulepszonych metod analizy obliczeniowej.
Dane
Dane z cytometrii przepływowej mają postać dużej macierzy intensywności na M długościach fali przez N zdarzeń. Większość zdarzeń będzie dotyczyć konkretnej komórki, chociaż niektóre mogą być dubletami (parami komórek, które przechodzą blisko siebie przez laser). Dla każdego zdarzenia rejestrowana jest zmierzona intensywność fluorescencji w określonym zakresie długości fal.
Zmierzona intensywność fluorescencji wskazuje ilość tego fluoroforu w komórce, która wskazuje ilość, która związała się z cząsteczkami wykrywającymi, takimi jak przeciwciała. Dlatego intensywność fluorescencji można uznać za wskaźnik zastępczy dla ilości cząsteczek detektora obecnych w komórce. Uproszczonym, jeśli nie ściśle dokładnym, sposobem rozpatrywania danych cytometrii przepływowej jest macierz M pomiarów razy N komórek, gdzie każdy element odpowiada ilości cząsteczek.
Etapy analizy danych z komputerowej cytometrii przepływowej
Proces przechodzenia od pierwotnych danych FCM do diagnozowania chorób i odkrywania biomarkerów obejmuje cztery główne etapy:
- Wstępne przetwarzanie danych (w tym kompensacja, transformacja i normalizacja)
- Identyfikacja populacji komórek (aka bramkowanie)
- Dopasowanie populacji komórek w celu porównania próbek krzyżowych
- Powiązanie populacji komórek ze zmiennymi zewnętrznymi (diagnoza i odkrycie)
Niektóre programy do cytometrii przepływowej obsługują zapisywanie kroków podjętych w określonym przepływie pracy cytometrii przepływowej i jest to ważne dla powtarzalności eksperymentów z cytometrią przepływową. Jednak zapisane pliki obszaru roboczego rzadko są wymienialne między programami. Próbą rozwiązania tego problemu jest opracowanie standardu danych opartego na Gating-ML XML (omówionego bardziej szczegółowo w sekcji dotyczącej standardów), który jest powoli przyjmowany zarówno w oprogramowaniu do cytometrii przepływowej, jak i o otwartym kodzie źródłowym. Pakiet CytoML R również wypełnia lukę, importując/eksportując Gating-ML, który jest kompatybilny z oprogramowaniem FlowJo, CytoBank i FACS Diva.
Wstępne przetwarzanie danych
Przed analizą dane cytometrii przepływowej muszą zazwyczaj zostać poddane wstępnemu przetwarzaniu w celu usunięcia artefaktów i danych niskiej jakości oraz przekształcenia ich w optymalną skalę do identyfikacji populacji komórek będących przedmiotem zainteresowania. Poniżej przedstawiono różne etapy typowego potoku przetwarzania wstępnego cytometrii przepływowej.
Odszkodowanie
Kiedy więcej niż jeden fluorochrom jest używany z tym samym laserem, ich widma emisyjne często się pokrywają. Każdy konkretny fluorochrom jest zwykle mierzony za pomocą pasmowoprzepustowego filtra optycznego ustawionego na wąskie pasmo na lub w pobliżu piku intensywności emisji fluorochromu. W rezultacie odczyt dla dowolnego fluorochromu jest w rzeczywistości sumą szczytowej intensywności emisji tego fluorochromu i intensywności widm wszystkich innych fluorochromów, w których nakładają się one na to pasmo częstotliwości. To nakładanie się nazywa się efektem rozlania, a proces usuwania efektu rozlania z danych cytometrii przepływowej nazywany jest kompensacją.
Kompensację zazwyczaj przeprowadza się przez wykonanie serii reprezentatywnych próbek, z których każda jest barwiona tylko jednym fluorochromem, aby uzyskać pomiary udziału każdego fluorochromu w każdym kanale. Całkowity sygnał do usunięcia z każdego kanału można obliczyć, rozwiązując układ równań liniowych w oparciu o te dane, aby utworzyć macierz przenikania, która po odwróceniu i pomnożeniu z surowymi danymi z cytometru daje skompensowane dane. Procesy obliczania macierzy przenikania lub stosowania wstępnie obliczonej macierzy przenikania do kompensacji danych cytometrii przepływowej to standardowe funkcje oprogramowania do cytometrii przepływowej.
Transformacja
Populacje komórek wykrywane za pomocą cytometrii przepływowej są często opisywane jako mające w przybliżeniu normalną ekspresję. W związku z tym tradycyjnie zostały one przekształcone w skalę logarytmiczną . We wczesnych cytometrach często osiągano to jeszcze przed akwizycją danych za pomocą wzmacniacza logarytmicznego . W nowoczesnych instrumentach dane są zwykle przechowywane w postaci liniowej i przekształcane cyfrowo przed analizą.
Jednak dane skompensowanej cytometrii przepływowej często zawierają wartości ujemne z powodu kompensacji, i zdarzają się populacje komórek, które mają niskie średnie i rozkłady normalne. Transformacje logarytmiczne nie obsługują prawidłowo wartości ujemnych i źle wyświetlają typy komórek o rozkładzie normalnym. Alternatywne transformacje, które rozwiązują ten problem, obejmują hybrydowe transformacje logarytmiczno-liniowe Logicle i Hyperlog , a także arcus sinus hiperboliczny i Box – Cox .
Porównanie powszechnie stosowanych transformacji wykazało, że transformacje dwuwykładnicze i transformacje Boxa-Coxa, gdy są optymalnie sparametryzowane, zapewniają najjaśniejszą wizualizację i najmniejszą wariancję populacji komórek w próbkach. Jednak późniejsze porównanie pakietu flowTrans użytego w tym porównaniu wykazało, że nie sparametryzował on transformacji Logicle w sposób zgodny z innymi implementacjami, potencjalnie podważając te wyniki.
Kontrola jakości
Szczególnie w nowszych, wysokowydajnych eksperymentach istnieje potrzeba opracowania metod wizualizacji , które pomogą wykryć błędy techniczne w poszczególnych próbkach. Jednym ze sposobów jest wizualizacja podsumowujących statystyk, takich jak empiryczne funkcje dystrybucji pojedynczych wymiarów powtórzeń technicznych lub biologicznych, aby upewnić się, że są one podobne. Aby uzyskać większą dokładność, test Kołmogorowa-Smirnowa w celu określenia, czy poszczególne próbki odbiegają od normy. Test Grubbsa dla wartości odstających może być użyty do wykrycia próbek odbiegających od grupy.
Metodą kontroli jakości w przestrzeni wielowymiarowej jest stosowanie kategoryzacji prawdopodobieństwa z koszami dopasowanymi do całego zbioru danych zebranych razem. Następnie odchylenie standardowe liczby komórek mieszczących się w pojemnikach w każdej próbce można przyjąć jako miarę podobieństwa wielowymiarowego, przy czym próbki, które są bliższe normie, mają mniejsze odchylenie standardowe. W przypadku tej metody wyższe odchylenie standardowe może wskazywać wartości odstające, chociaż jest to miara względna, ponieważ wartość bezwzględna zależy częściowo od liczby przedziałów.
We wszystkich tych metodach mierzona jest zmienność międzypróbkowa. Jednak jest to połączenie technicznych zmian wprowadzonych przez instrumenty i obsługę oraz rzeczywistych informacji biologicznych, które mają być mierzone. Ujednoznacznienie technicznego i biologicznego wkładu w zmienność między próbkami może być zadaniem trudnym lub niemożliwym.
Normalizacja
Szczególnie w badaniach wieloośrodkowych zmienność techniczna może utrudniać dopasowanie biologicznie równoważnych populacji komórek w różnych próbkach. Metody normalizacji w celu usunięcia wariancji technicznej, często wywodzące się z technik rejestracji obrazu , są zatem krytycznym krokiem w wielu analizach cytometrii przepływowej. Normalizację pojedynczego znacznika można przeprowadzić za pomocą rejestracji punktów orientacyjnych, w której piki w oszacowaniu gęstości jądra każdej próbki są identyfikowane i wyrównywane między próbkami.
Identyfikacja populacji komórek
Złożoność surowych danych cytometrii przepływowej (dziesiątki pomiarów dla tysięcy do milionów komórek) utrudnia bezpośrednie odpowiadanie na pytania za pomocą testów statystycznych lub nadzorowanego uczenia się. Dlatego kluczowym krokiem w analizie danych z cytometrii przepływowej jest zredukowanie tej złożoności do czegoś łatwiejszego do opanowania przy jednoczesnym ustaleniu wspólnych cech w próbkach. Zwykle obejmuje to identyfikację wielowymiarowych regionów, które zawierają funkcjonalnie i fenotypowo jednorodne grupy komórek. Jest to forma analizy skupień . Istnieje szereg metod, za pomocą których można to osiągnąć, wyszczególnionych poniżej.
Bramkowanie
Dane generowane przez cytometry przepływowe można wykreślić w jednym lub dwóch wymiarach w celu utworzenia histogramu lub wykresu punktowego. Regiony na tych wykresach można sekwencyjnie rozdzielać w oparciu o intensywność fluorescencji , tworząc serię ekstrakcji podzbiorów, zwanych „ bramkami ”. Bramki te można wytwarzać za pomocą oprogramowania, np. Flowjo, FCS Express, WinMDI, CytoPaint (aka Paint-A-Gate), VenturiOne, Cellcion, CellQuest Pro, Cytospec, Kaluza. lub flowCore.
W zbiorach danych o małej liczbie wymiarów i ograniczonej technicznej i biologicznej zmienności między próbkami (np. laboratoria kliniczne) ręczna analiza określonych populacji komórek może dać skuteczne i powtarzalne wyniki. Jednak eksploracyjna analiza dużej liczby populacji komórek w wielowymiarowym zbiorze danych nie jest możliwa. Ponadto analiza ręczna w mniej kontrolowanych warunkach (np. badania międzylaboratoryjne) może zwiększyć ogólny poziom błędów badania. W jednym badaniu kilka obliczeniowych algorytmów bramkowania działało lepiej niż analiza ręczna w obecności pewnych zmian. Jednak pomimo znacznych postępów w analizie obliczeniowej, ręczne bramkowanie pozostaje głównym rozwiązaniem do identyfikacji określonych rzadkich populacji komórek, które nie są dobrze oddzielone od innych typów komórek.
Bramkowanie kierowane redukcją wymiarów
Liczba wykresów punktowych, które należy zbadać, rośnie wraz z kwadratem liczby zmierzonych markerów (lub szybciej, ponieważ niektóre markery muszą być zbadane kilka razy dla każdej grupy komórek, aby rozwiązać wielowymiarowe różnice między typami komórek, które wydają się być podobne w większości markerów). Aby rozwiązać ten problem, analizę głównych składowych w celu podsumowania wielowymiarowych zestawów danych za pomocą kombinacji znaczników, która maksymalizuje wariancję wszystkich punktów danych. Jednak PCA jest metodą liniową i nie jest w stanie zachować złożonych i nieliniowych zależności. Niedawno do kierowania procesem ręcznego bramkowania zastosowano dwuwymiarowe układy minimalnego drzewa rozpinającego . Aby lepiej reprezentować rzadkie populacje i kontrolować złożoność czasową i pamięciową procesu budowy minimalnego drzewa rozpinającego, zastosowano próbkowanie w dół i grupowanie w oparciu o gęstość. Bardziej wyrafinowane redukcji wymiarów nie zostały jeszcze zbadane.
Automatyczne bramkowanie
Opracowanie narzędzi obliczeniowych do identyfikacji populacji komórek jest przedmiotem aktywnych badań dopiero od 2008 roku. Ostatnio opracowano wiele indywidualnych podejść klastrowych , w tym algorytmy oparte na modelach (np. flowClust i FLAME), algorytmy oparte na gęstości (np. FLOCK i SWIFT, podejścia oparte na grafach (np. SamSPECTRAL) i ostatnio hybrydy kilku podejść (flowMeans i flowPeaks).Algorytmy te różnią się złożonością pamięciową i czasową, wymaganiami programowymi, zdolnością do automatycznego określania wymaganej liczby populacji komórek, oraz ich czułość i specyficzność.Projekt FlowCAP (Cytometria przepływowa: krytyczna ocena metod identyfikacji populacji), przy aktywnym udziale większości grup akademickich prowadzących wysiłki badawcze w tej dziedzinie, zapewnia sposób na obiektywne porównanie krzyżowe stanu metody zautomatyzowanej analizy. Inne ankiety również porównywały zautomatyzowane narzędzia do bramkowania na kilku zestawach danych.
Metody kategoryzowania prawdopodobieństwa
Binning prawdopodobieństwa to metoda analizy bez bramkowania, w której dane cytometrii przepływowej są dzielone na kwantyle na podstawie jednej zmiennej. Lokalizacje kwantyli można następnie wykorzystać do testowania różnic między próbkami (w zmiennych, które nie są dzielone) za pomocą testu chi-kwadrat.
Zostało to później rozszerzone na wiele wymiarów w postaci bramkowania różnicą częstotliwości, binarnej techniki partycjonowania przestrzeni , w której dane są iteracyjnie dzielone wzdłuż mediany. Te przegrody (lub pojemniki) są dopasowane do próbki kontrolnej. Następnie proporcję komórek mieszczących się w każdym pojemniku w próbkach testowych można porównać z próbką kontrolną za pomocą testu chi-kwadrat.
Wreszcie cytometryczne pobieranie odcisków palców wykorzystuje wariant bramkowania różnicowego częstotliwości do ustawiania pojemników i pomiaru dla serii próbek, ile komórek mieści się w każdym pojemniku. Pojemniki te mogą być używane jako bramki i wykorzystywane do późniejszej analizy, podobnie jak zautomatyzowane metody bramkowania.
Bramkowanie kombinatoryczne
Wielowymiarowe algorytmy grupowania często nie są w stanie zidentyfikować rzadkich typów komórek, które nie są dobrze oddzielone od innych głównych populacji. Dopasowanie tych małych populacji komórek w wielu próbkach jest jeszcze większym wyzwaniem. W przypadku analizy ręcznej, wcześniejsza wiedza biologiczna (np. kontrola biologiczna) dostarcza wskazówek do rozsądnej identyfikacji tych populacji. Jednak włączenie tych informacji do eksploracyjnego procesu grupowania (np. w uczeniu częściowo nadzorowanym ) nie powiodło się.
Alternatywą dla grupowania wielowymiarowego jest identyfikacja populacji komórek za pomocą jednego markera na raz, a następnie łączenie ich w celu wytworzenia klastrów o wyższych wymiarach. Funkcjonalność ta została po raz pierwszy zaimplementowana w FlowJo. Algorytm flowType opiera się na tej strukturze, umożliwiając wykluczenie znaczników. Umożliwia to opracowanie narzędzi statystycznych (np. RchyOptimyx), które mogą badać znaczenie każdego markera i wykluczać wielowymiarowe redundancje.
Diagnoza i odkrycie
Po zidentyfikowaniu populacji komórek będących przedmiotem zainteresowania, można przeprowadzić analizę krzyżową próbek w celu zidentyfikowania zmian fenotypowych lub funkcjonalnych, które są skorelowane ze zmienną zewnętrzną (np. wynikiem klinicznym). Badania te można podzielić na dwie główne grupy:
Diagnoza
W tych badaniach celem jest zwykle zdiagnozowanie choroby (lub podklasy choroby) na podstawie zmian w jednej lub kilku populacjach komórek. Na przykład, można użyć wielowymiarowego klastrowania, aby zidentyfikować zestaw klastrów, dopasować je we wszystkich próbkach, a następnie użyć nadzorowanego uczenia się do skonstruowania klasyfikatora do przewidywania interesujących klas (np. to podejście może być wykorzystane do poprawy dokładności klasyfikacja określonych podtypów chłoniaka). Alternatywnie, wszystkie komórki z całej kohorty można połączyć w jedną wielowymiarową przestrzeń w celu grupowania przed klasyfikacją. To podejście jest szczególnie odpowiednie w przypadku zbiorów danych o dużej zmienności biologicznej (w których dopasowywanie prób krzyżowych jest trudne), ale wymaga starannej kontroli różnic technicznych.
Odkrycie
W ustawieniach wykrywania celem jest zidentyfikowanie i opisanie populacji komórek skorelowanych ze zmienną zewnętrzną (w przeciwieństwie do ustawienia diagnozy, w którym celem jest połączenie mocy predykcyjnej wielu typów komórek w celu maksymalizacji dokładności wyników). Podobnie jak w przypadku przypadku diagnostycznego, dopasowywanie klastrów w przestrzeni wielowymiarowej może być użyte do analizy eksploracyjnej, ale moc opisowa tego podejścia jest bardzo ograniczona, ponieważ trudno jest scharakteryzować i zwizualizować populację komórek w przestrzeni wielowymiarowej bez najpierw zmniejszając wymiarowość. Wreszcie, kombinatoryczne podejścia do bramkowania okazały się szczególnie skuteczne w eksploracyjnej analizie danych FCM. Uproszczona prezentacja niesamowicie złożonych ocen (SPICE) to pakiet oprogramowania, który może wykorzystywać funkcję bramkowania FlowJo do statystycznej oceny szerokiego zakresu różnych populacji komórek i wizualizacji tych, które są skorelowane z wynikiem zewnętrznym. flowType i RchyOptimyx (jak omówiono powyżej) rozszerzają tę technikę, dodając możliwość badania wpływu niezależnych markerów na ogólną korelację z wynikiem zewnętrznym. Umożliwia to usunięcie zbędnych znaczników i zapewnia prostą wizualizację wszystkich zidentyfikowanych typów komórek. W niedawnej analizie dużej (n=466) kohorty pacjentów zakażonych wirusem HIV, ten rurociąg zidentyfikował trzy korelaty ochrony przed HIV, z których tylko jeden został wcześniej zidentyfikowany poprzez obszerną ręczną analizę tego samego zbioru danych.
Formaty danych i wymiana
Standard cytometrii przepływowej
Standard cytometrii przepływowej (FCS) został opracowany w 1984 r., aby umożliwić rejestrowanie i udostępnianie danych z cytometrii przepływowej. Od tego czasu FCS stał się standardowym formatem plików obsługiwanym przez wszystkich dostawców oprogramowania i sprzętu do cytometrii przepływowej. Specyfikacja FCS była tradycyjnie opracowywana i utrzymywana przez International Society for Advancement of Cytometry (ISAC). Z biegiem lat wprowadzano aktualizacje, aby dostosować się do postępu technologicznego zarówno w cytometrii przepływowej, jak i technologiach obliczeniowych z FCS 2.0 wprowadzonym w 1990 r., FCS 3.0 w 1997 r. I najnowszą specyfikacją FCS 3.1 w 2010 r. FCS był jedynym szeroko przyjętym plikiem formacie w cytometrii przepływowej. Ostatnio ISAC opracował dodatkowe standardowe formaty plików.
netCDF
ISAC rozważa zastąpienie FCS przez specyficzną dla cytometrii przepływowej wersję formatu pliku Network Common Data Form (netCDF). netCDF to zestaw swobodnie dostępnych bibliotek oprogramowania i formatów danych niezależnych od maszyny, które wspierają tworzenie, dostęp i udostępnianie danych naukowych zorientowanych na macierze. W 2008 r. ISAC opracował pierwszą wersję konwencji netCDF dotyczących przechowywania nieprzetworzonych danych z cytometrii przepływowej.
Standard cytometrii archiwalnej (ACS)
Archival Cytometry Standard (ACS) jest opracowywany w celu łączenia danych z różnymi komponentami opisującymi eksperymenty cytometryczne. Przechwytuje relacje między danymi, metadanymi, plikami analiz i innymi komponentami, a także obsługuje ścieżki audytu, wersjonowanie i podpisy cyfrowe. Kontener ACS jest oparty na formacie pliku ZIP ze spisem treści opartym na XML , określającym relacje między plikami w kontenerze. Rekomendacja XML Signature W3C została przyjęta, aby umożliwić cyfrowe podpisy komponentów w kontenerze ACS. Wstępny projekt ACS został opracowany w 2007 r. i sfinalizowany w 2010 r. Od tego czasu obsługa ACS została wprowadzona w kilku narzędziach programowych, w tym w FlowJo i Cytobank.
Bramkowanie-ML
Brak interoperacyjności bramkowania był tradycyjnie wąskim gardłem uniemożliwiającym powtarzalność analizy danych z cytometrii przepływowej i korzystanie z wielu narzędzi analitycznych. Aby zaradzić temu niedostatkowi, ISAC opracował Gating-ML, oparty na języku XML mechanizm do formalnego opisywania bramek i związanych z nimi transformacji danych (skali). Wersja robocza rekomendacji Gating-ML została zatwierdzona przez ISAC w 2008 roku i jest częściowo obsługiwana przez narzędzia takie jak FlowJo, flowUtils, biblioteki CytoML w R/BioConductor i FlowRepository. Obsługuje bramki prostokątne, bramki wielokątne, wypukłe polytopy, elipsoidy, drzewa decyzyjne i kolekcje boolowskie dowolnego innego typu bramek. Ponadto zawiera dziesiątki wbudowanych publicznych transformacji, które okazały się potencjalnie przydatne do wyświetlania lub analizy danych cytometrycznych. W 2013 r. Gating-ML w wersji 2.0 został zatwierdzony przez grupę zadaniową ds. standardów danych ISAC jako zalecenie. Ta nowa wersja oferuje nieco mniejszą elastyczność pod względem mocy opisu bramkowania; jednak jest również znacznie łatwiejszy do wdrożenia w narzędziach programowych.
Wyniki klasyfikacji (CLR)
Format pliku wyników klasyfikacji (CLR) został opracowany w celu wymiany wyników ręcznego bramkowania i algorytmicznych metod klasyfikacji w standardowy sposób, aby móc raportować i przetwarzać klasyfikację. CLR opiera się na powszechnie obsługiwanym formacie pliku CSV z kolumnami odpowiadającymi różnym klasom i wartościami komórek zawierającymi prawdopodobieństwo przynależności zdarzenia do określonej klasy. Są one rejestrowane jako wartości z zakresu od 0 do 1. Prostota formatu i jego kompatybilność z popularnymi narzędziami do obsługi arkuszy kalkulacyjnych to główne wymagania leżące u podstaw projektowania specyfikacji. Chociaż pierwotnie został zaprojektowany dla dziedziny cytometrii przepływowej, ma zastosowanie w każdej dziedzinie, która wymaga uchwycenia rozmytych lub jednoznacznych klasyfikacji praktycznie każdego rodzaju obiektów.
Dane publiczne i oprogramowanie
Podobnie jak w innych dziedzinach bioinformatyki, rozwój nowych metod przybrał przede wszystkim formę bezpłatnego oprogramowania open source i utworzono kilka baz danych do deponowania otwartych danych .
AutoBrama
AutoGate wykonuje kompensację, bramkowanie, podgląd klastrów, wyczerpującą projekcję (EPP), wielowymiarowe skalowanie i fenogram, tworzy wizualny dendogram, aby wyrazić gotowość HiD. Jest bezpłatny dla badaczy i klinicystów w instytucjach akademickich, rządowych i non-profit.
Bioprzewodnik
Projekt Bioconductor to repozytorium wolnego oprogramowania open source, w większości napisanego w języku programowania R. Od lipca 2013 r. firma Bioconductor zawierała 21 pakietów oprogramowania do przetwarzania danych z cytometrii przepływowej. Te pakiety obejmują większość zakresu funkcji opisanych wcześniej w tym artykule.
Wzór genu
GenePattern to głównie platforma do analizy genomicznej z ponad 200 narzędziami do analizy ekspresji genów, proteomiki i innych danych. Internetowy interfejs zapewnia łatwy dostęp do tych narzędzi i umożliwia tworzenie zautomatyzowanych potoków analiz umożliwiających powtarzalne badania. Niedawno opracowano pakiet GenePattern Flow Cytometry Suite, aby zapewnić eksperymentatorom nieposiadającym umiejętności programistycznych zaawansowane narzędzia do analizy danych z cytometrii przepływowej. Zawiera blisko 40 modułów cytometrii przepływowej GenePattern typu open source, obejmujących metody od podstawowego przetwarzania standardowych plików cytometrii przepływowej (tj. FCS) po zaawansowane algorytmy automatycznej identyfikacji populacji komórek, normalizacji i oceny jakości. Wewnętrznie większość tych modułów wykorzystuje funkcjonalność opracowaną w BioConductor.
Wiele funkcji pakietów Bioconductor do analizy metodą cytometrii przepływowej zostało przygotowanych do użytku z systemem przepływu pracy GenePattern w postaci pakietu GenePattern Flow Cytometry Suite.
FACSanadu
FACSanadu to przenośna aplikacja typu open source do wizualizacji i analizy danych FCS. W przeciwieństwie do Bioconductor, jest to interaktywny program przeznaczony dla osób niebędących programistami do rutynowej analizy. Obsługuje standardowe pliki FCS oraz dane profilu COPAS.
hema.to
hema.to to usługa sieciowa służąca do klasyfikacji danych cytometrii przepływowej pacjentów z podejrzeniem chłoniaka. Sztuczna inteligencja w narzędziu wykorzystuje głęboką konwolucyjną sieć neuronową do rozpoznawania wzorców różnych podtypów. Wszystkie dane i kod są w otwartym dostępie. Przetwarza surowe dane, co sprawia, że bramkowanie jest niepotrzebne. Aby uzyskać najlepszą wydajność na nowych danych, wymagane jest dostrajanie poprzez transfer wiedzy.
Publiczne bazy danych
Minimalne informacje o eksperymencie z cytometrią przepływową (MIFlowCyt) wymagają, aby wszelkie dane z cytometrii przepływowej wykorzystane w publikacji były dostępne, chociaż nie obejmuje to wymogu zdeponowania ich w publicznej bazie danych. Tak więc, chociaż czasopisma Cytometry Part A i B, jak również wszystkie czasopisma z Nature Publishing Group wymagają zgodności z MIFlowCyt, wciąż jest stosunkowo mało publicznie dostępnych danych dotyczących cytometrii przepływowej. Podjęto jednak pewne wysiłki w kierunku stworzenia publicznych baz danych.
Po pierwsze CytoBank, który jest kompletną internetową platformą do przechowywania i analizy danych z cytometrii przepływowej, został publicznie udostępniony w ograniczonej formie. Korzystając z bazy kodu CytoBank, FlowRepository zostało opracowane w 2012 roku przy wsparciu ISAC jako publiczne repozytorium danych cytometrii przepływowej. FlowRepository ułatwia zgodność z MIFlowCyt, a od lipca 2013 r. zawierało 65 publicznych zestawów danych.
Zbiory danych
W 2012 roku społeczność zajmująca się cytometrią przepływową zaczęła publikować zestaw publicznie dostępnych zestawów danych. Poniżej opisano podzbiór tych zestawów danych reprezentujący istniejące wyzwania związane z analizą danych. Dla porównania z bramkowaniem ręcznym, w ramach projektu FlowCAP-I opublikowano pięć zestawów danych, ręcznie bramkowanych przez analityków-ludzi, a dwa z nich bramkowane przez ośmiu niezależnych analityków. Projekt FlowCAP-II obejmował trzy zestawy danych do klasyfikacji binarnej, a także zgłosił kilka algorytmów, które były w stanie doskonale sklasyfikować te próbki. FlowCAP-III zawierał dwa większe zestawy danych do porównania z ręcznymi bramkami, a także jeden bardziej wymagający zestaw danych do klasyfikacji próbek. Od marca 2013 r. Publiczne wydanie FlowCAP-III było nadal w toku. Zbiory danych używane w FlowCAP-I, II i III mają małą liczbę podmiotów lub parametrów. Jednak ostatnio opublikowano kilka bardziej złożonych zestawów danych klinicznych, w tym zestaw danych 466 pacjentów zakażonych wirusem HIV, który zawiera zarówno testy 14 parametrów, jak i informacje kliniczne wystarczające do analizy przeżycia.
Inną klasą zbiorów danych są wielowymiarowe testy cytometrii masowej. Reprezentatywnym przedstawicielem tej klasy zbiorów danych jest badanie, które obejmuje analizę dwóch próbek szpiku kostnego przy użyciu ponad 30 markerów powierzchniowych lub wewnątrzkomórkowych w szerokim zakresie różnych stymulacji. Surowe dane dla tego zestawu danych są publicznie dostępne, jak opisano w manuskrypcie, a ręczne analizy znaczników powierzchni są dostępne na żądanie autorów.
Otwarte problemy
Pomimo szybkiego rozwoju w dziedzinie bioinformatyki cytometrii przepływowej, kilka problemów pozostaje do rozwiązania.
Zmienność w eksperymentach z cytometrią przepływową wynika ze zmienności biologicznej między próbkami, różnic technicznych między używanymi instrumentami, a także metod analizy. W 2010 roku grupa naukowców z Uniwersytetu Stanforda i National Institutes of Health zwróciła uwagę, że chociaż zmienność techniczną można złagodzić poprzez standaryzację postępowania z próbkami, ustawieniem aparatu i doborem odczynników, rozwiązywanie różnic w metodach analizy będzie wymagało podobnej standaryzacji i automatyzacji obliczeniowej metody bramkowania. Ponadto wyrazili opinię, że centralizacja zarówno danych, jak i analiz może pomóc w zmniejszeniu zmienności między eksperymentami i porównywaniu wyników.
Zostało to powtórzone przez inną grupę naukowców z Pacific Biosciences i Stanford University, którzy zasugerowali, że przetwarzanie w chmurze może umożliwić scentralizowaną, znormalizowaną, wysokoprzepustową analizę eksperymentów z cytometrią przepływową. Podkreślili również, że ciągły rozwój i przyjmowanie standardowych formatów danych może nadal pomagać w zmniejszaniu zmienności między eksperymentami. Zaproponowali również, że potrzebne będą nowe metody do modelowania i podsumowywania wyników wysokowydajnych analiz w sposób, który może być interpretowany przez biologów, a także sposoby integracji wielkoskalowych danych cytometrii przepływowej z innymi wysokoprzepustowymi informacjami biologicznymi, takimi jak ekspresja genów , zmienność genetyczna , poziomy metabolitów i stany chorobowe.