GeneNetwork

GeneNetwork
Deweloperzy Zespół ds. Rozwoju GeneNetwork, University of Tennessee
Pierwsze wydanie 15 stycznia 1994 ; 29 lat temu ( 15.01.1994 )
Wersja stabilna
2.0 / 29 maja 2016 ; 6 lat temu ( 2016-05-29 )
Magazyn github.com/genenetwork/genenetwork2 _ _ _
Napisane w JavaScript , HTML , Python , CSS , CoffeeScript , PHP
Licencja Powszechna Licencja Publiczna Affero
Strona internetowa www .genenetwork .org

GeneNetwork to połączona baza danych i oprogramowanie do analizy danych bioinformatycznych typu open source dla genetyki systemów. Zasób ten jest wykorzystywany do badania sieci regulacyjnych genów , które łączą różnice w sekwencji DNA z odpowiadającymi im różnicami w ekspresji genów i białek oraz zmiennością cech, takich jak ryzyko zdrowia i choroby. Zbiory danych w GeneNetwork zazwyczaj składają się z dużych zbiorów genotypów (np. SNP ) i fenotypów z grup osobników, w tym ludzi, szczepów myszy i szczurów oraz organizmów tak różnych, jak Drosophila melanogaster , Arabidopsis thaliana i jęczmień . Włączenie genotypów sprawia, że ​​praktyczne jest przeprowadzanie internetowego mapowania genów w celu odkrycia tych regionów genomów, które przyczyniają się do różnic między osobnikami w poziomach mRNA, białek i metabolitów, a także różnic w funkcjach, anatomii, fizjologii i zachowaniu komórek .

Historia

Rozwój GeneNetwork rozpoczął się w University of Tennessee Health Science Center w 1994 roku jako internetowa wersja Portable Dictionary of the Mouse Genome (1994) . GeneNetwork to zarówno pierwsza, jak i najdłużej działająca usługa internetowa w badaniach biomedycznych [patrz https://en.wikipedia.org/wiki/List_of_websites_founded_before_1995 ]. W 1999 roku przenośny słownik genów został połączony z programem do mapowania QT Map Manager Kennetha F. Manly'ego w celu stworzenia internetowego systemu do analizy genetycznej w czasie rzeczywistym. Na początku 2003 r. włączono pierwsze duże zestawy danych ekspresji genów Affymetrix (mRNA całego mózgu myszy i hematopoetyczne komórki macierzyste) i przemianowano system na WebQTL. GeneNetwork jest obecnie rozwijany przez międzynarodową grupę programistów i ma serwery lustrzane i witryny rozwojowe w Europie, Azji i Australii. Usługi produkcyjne są hostowane w systemach Centrum Nauk o Zdrowiu Uniwersytetu Tennessee z instancją zapasową w Europie.

Obecna wersja produkcyjna GeneNetwork (znana również jako GN2) została wydana w 2016 roku. Obecna wersja GeneNetwork wykorzystuje tę samą bazę danych, co jej poprzedniczka, GN1, ale ma znacznie bardziej modułowy i łatwiejszy w utrzymaniu kod open source (dostępny na GitHub ) . GeneNetwork ma teraz również znaczące nowe funkcje, w tym obsługę:

Organizacja i użytkowanie

GeneNetwork składa się z dwóch głównych komponentów:

  • Ogromne zbiory danych genetycznych, genomicznych i fenotypowych dla dużych kohort osób
  • Zaawansowane oprogramowanie do analizy statystycznej i mapowania genów, które umożliwia analizę sieci molekularnych i komórkowych oraz relacji między genotypem a fenotypem

Dla każdej rodziny lub populacji uzyskuje się zwykle cztery poziomy danych:

  1. Sekwencje DNA i genotypy
  2. Dane dotyczące ekspresji molekularnej często generowane przy użyciu macierzy , sekwencji RNA , metod epigenomicznych, proteomicznych, metabolomicznych i metagenomicznych (fenotypy molekularne)
  3. Standardowe fenotypy ilościowe , które często są częścią typowej dokumentacji medycznej (np. biochemia krwi, masa ciała)
  4. Pliki adnotacji i metadane dla cech i zestawów danych

Połączone typy danych są przechowywane razem w relacyjnej bazie danych i serwerze plików IPSF i są koncepcyjnie zorganizowane i pogrupowane według gatunków, kohort i rodzin. System jest zaimplementowany jako LAMP (software bundle) . Kod i uproszczona wersja MariaDB są dostępne na GitHub .

GeneNetwork jest używany głównie przez naukowców, ale został również z powodzeniem przyjęty na kursach licencjackich i magisterskich z genetyki i bioinformatyki (patrz przykład YouTube ), bioinformatyki, fizjologii i psychologii. Badacze i studenci zazwyczaj wyszukują zestawy genotypów i fenotypów z jednej lub więcej rodzin i wykorzystują wbudowane funkcje statystyczne i mapujące do badania relacji między zmiennymi i tworzenia sieci skojarzeń. Kluczowe kroki obejmują analizę następujących czynników:

  1. Zakres zmienności cech
  2. Kowariancja między cechami (wykresy rozrzutu i korelacje, analiza głównych składowych)
  3. Architektura większych sieci cech
  4. Ilościowe mapowanie locus cech i modele przyczynowe powiązań między różnicami sekwencji a różnicami fenotypowymi

Źródła danych

Zestawy danych dotyczących cech i ekspresji molekularnej są przesyłane bezpośrednio przez naukowców lub są pobierane z repozytoriów, takich jak National Center for Biotechnology Information Gene Expression Omnibus. Dane obejmują różnorodne komórki i tkanki — od populacji pojedynczych komórek układu odpornościowego, określonych tkanek (siatkówka, kora przedczołowa), po całe układy (cały mózg, płuca, mięśnie, serce, tłuszcz, nerki, kwiaty, całe zarodki roślin) . Typowy zestaw danych obejmuje setki w pełni genotypowanych osobników i może również zawierać repliki techniczne i biologiczne. Genotypy i fenotypy są zwykle pobierane z recenzowanych artykułów. GeneNetwork zawiera pliki adnotacji dla kilku platform profilowania RNA (Affymetrix, Illumina i Agilent). Sekwencja RNA i ilościowe dane proteomiczne, metabolomiczne, epigenetyczne i metagenomiczne są również dostępne dla kilku gatunków, w tym myszy i człowieka.

Narzędzia i funkcje

Na stronie dostępne są narzędzia do szerokiego zakresu funkcji, począwszy od prostych graficznych pokazów zmienności w ekspresji genów lub innych fenotypów, wykresów punktowych par cech (kolejność Pearsona lub rangi), tworzenia zarówno prostych, jak i złożonych wykresów sieciowych, analizy głównych składników i cech syntetycznych, mapowanie QTL przy użyciu regresji znaczników, mapowanie interwałowe i skanowanie par pod kątem interakcji epistatycznych. Większość funkcji działa z maksymalnie 100 cechami, a kilka funkcji działa z całym transkryptomem .

Bazę danych można przeglądać i przeszukiwać na głównej stronie wyszukiwania . Dostępny jest samouczek online . Użytkownicy mogą również pobrać podstawowe zestawy danych w postaci plików tekstowych, programu Excel lub w przypadku wykresów sieciowych jako SBML . Od 2017 roku GN2 jest dostępny jako wersja beta.

Kod

GeneNetwork to projekt typu open source wydany na licencji Affero General Public License (AGPLv3). Większość kodu jest napisana w Pythonie, ale zawiera moduły i inny kod napisany w C, R i JavaScript. Kod to głównie Python 2.4. GN2 jest napisany głównie w Pythonie 2.7 we Flask z szablonami HTML Jinja 2), ale z konwersją do Pythona 3.X planowaną w ciągu najbliższych kilku lat. GN2 wywołuje wiele procedur statystycznych napisanych w języku programowania R. Oryginalny kod źródłowy z 2010 roku wraz ze zwartą bazą danych jest dostępny na SourceForge . Podczas gdy GN1 był aktywnie utrzymywany przez GitHub 2019 , od 2020 roku wszystkie prace koncentrują się na GN2 .

Zobacz też

Linki zewnętrzne

Powiązane zasoby

Genetyka innych systemów i sieciowe bazy danych