UGEN
Oryginalni autorzy | Fursow M. |
---|---|
Deweloperzy | Unipro |
Pierwsze wydanie | 2008 |
Wersja stabilna | 43 / 21 sierpnia 2022
|
Napisane w | C++ , Qt |
System operacyjny | Windowsa , macOSa , Linuksa |
Dostępne w | angielski , rosyjski |
Typ | Zestaw narzędzi bioinformatycznych |
Licencja | GPLv 2 |
Strona internetowa |
UGENE to oprogramowanie komputerowe dla bioinformatyki . Działa w komputerów osobistych, takich jak Windows , macOS lub Linux . Jest udostępniany jako oprogramowanie bezpłatne i typu open source na licencji GNU General Public License (GPL) w wersji 2.
UGENE pomaga biologom analizować różne dane genetyki biologicznej , takie jak sekwencje , adnotacje, wielokrotne dopasowania , drzewa filogenetyczne , zespoły NGS i inne. Dane mogą być przechowywane zarówno lokalnie (na komputerze osobistym), jak iw pamięci współdzielonej (np. laboratoryjna baza danych).
UGENE integruje dziesiątki znanych narzędzi biologicznych, algorytmów i oryginalnych narzędzi w kontekście genomiki , biologii ewolucyjnej , wirusologii i innych dziedzin nauk przyrodniczych. UGENE zapewnia graficzny interfejs użytkownika (GUI) dla gotowych narzędzi, dzięki czemu biolodzy bez umiejętności programowania komputerowego mogą łatwiej uzyskać dostęp do tych narzędzi.
Korzystając z UGENE Workflow Designer możliwe jest usprawnienie wieloetapowej analizy. Przepływ pracy składa się z bloków, takich jak czytniki danych, bloki wykonujące wbudowane narzędzia i algorytmy oraz zapisy danych. Bloki można tworzyć za pomocą narzędzi wiersza poleceń lub skryptu. Zestaw przykładowych przepływów pracy jest dostępny w Projektancie przepływów pracy, aby dodawać adnotacje do sekwencji, konwertować formaty danych, analizować dane NGS itp.
Oprócz interfejsu graficznego UGENE posiada również interfejs wiersza poleceń . Przepływy pracy mogą być również wykonywane w ten sposób.
Aby poprawić wydajność, UGENE wykorzystuje wielordzeniowe procesory (CPU) i procesory graficzne (GPU) w celu optymalizacji kilku algorytmów.
Kluczowe cechy
Oprogramowanie obsługuje następujące funkcje:
- Twórz, edytuj i opisuj sekwencje kwasów nukleinowych i białek
- Szybkie wyszukiwanie w sekwencji
- Dopasowanie wielu sekwencji : Clustal W i O, MUSCLE , Kalign , MAFFT , T-Coffee
- Twórz i używaj współdzielonej pamięci masowej, np. laboratoryjnej bazy danych
- Przeszukiwanie baz danych online : National Center for Biotechnology Information (NCBI), Protein Data Bank (PDB), UniProtKB/Swiss-Prot , UniProtKB/TrEMBL , serwery DAS
- Wyszukiwanie lokalne i NCBI Genbank BLAST
- Otwórz wyszukiwarkę ramek odczytu
- enzymów restrykcyjnych ze zintegrowaną listą enzymów restrykcyjnych REBASE
- Zintegrowany pakiet Primer3 do projektowania starterów PCR
- Konstrukcja i adnotacja plazmidu
- Klonowanie in silico poprzez projektowanie wektorów klonujących
- Mapowanie genomu krótkich odczytów za pomocą Bowtie , BWA i UGENE Genome Aligner
- Wizualizuj dane sekwencjonowania nowej generacji (pliki BAM) za pomocą przeglądarki UGENE Assembly Browser
- Wariantowe wywołanie z SAMtools
- Analiza danych RNA-Seq za pomocą potoku Tuxedo (TopHat, spinki do mankietów itp.)
- Analiza danych ChIP-seq za pomocą potoku Cistrome (MACS, CEAS itp.)
- Przetwarzanie surowych danych NGS
- HMMER 2 i 3
- Przeglądarka chromatogramów
- Wyszukiwanie miejsc wiązania czynników transkrypcyjnych ( TFBS ) za pomocą macierzy wag i algorytmów SITECON
- Szukaj bezpośrednich , odwróconych i tandemowych powtórzeń w sekwencjach DNA
- Lokalne dopasowanie sekwencji za pomocą zoptymalizowanego algorytmu Smitha-Watermana
- Twórz (za pomocą zintegrowanego łączenia sąsiadów PHYLIP , MrBayes lub PhyML Maximum Likelihood) i edytuj drzewa filogenetyczne
- Połącz różne algorytmy w niestandardowe przepływy pracy za pomocą UGENE Workflow Designer
- Zespół Contigów z CAP3
- struktur 3D dla plików w formatach Protein Data Bank (PDB) i Molecular Modeling Database (MMDB), obsługa widoku anaglifów
- Przewiduj drugorzędową strukturę białek za pomocą algorytmów GOR IV i PSIPRED
- Skonstruować wykresy punktowe dla sekwencji kwasów nukleinowych
- mRNA do Spidey
- Wyszukuj złożone sygnały za pomocą ExpertDiscovery
- Wyszukaj wzór wyników różnych algorytmów w sekwencji kwasu nukleinowego za pomocą UGENE Query Designer
- PCR in silico do projektowania i mapowania starterów
- Spade de novo asembler
Widok sekwencji
Widok sekwencji służy do wizualizacji, analizy i modyfikacji sekwencji kwasów nukleinowych lub białek . W zależności od typu sekwencji i wybranych opcji, w oknie Widok sekwencji mogą znajdować się następujące widoki:
- Widok struktury 3D
- Okrągły widok
- Widok chromatogramu
- Widok wykresów: zawartość GC, zawartość AG i inne
- wykresu kropkowego
Edytor wyrównania
Alignment Editor umożliwia pracę z wieloma sekwencjami kwasów nukleinowych lub białek — dopasowywanie ich, edytowanie dopasowania, analizowanie go, przechowywanie sekwencji konsensusowej , budowanie drzewa filogenetycznego i tak dalej.
Przeglądarka drzew filogenetycznych
Przeglądarka drzewa filogenetycznego pomaga wizualizować i edytować drzewa filogenetyczne. Możliwe jest zsynchronizowanie drzewa z odpowiednim wielokrotnym wyrównaniem użytym do zbudowania drzewa.
Przeglądarka zestawów
Assembly Browser został zapoczątkowany w 2010 roku jako zgłoszenie do Illumina iDEA Challenge 2011. Przeglądarka umożliwia użytkownikom wizualizację i przeglądanie dużych (do setek milionów krótkich odczytów) zestawów sekwencji nowej generacji. Obsługuje formaty SAM, BAM (binarna wersja SAM) i ACE. Przed przeglądaniem danych złożenia w UGENE plik wejściowy jest automatycznie konwertowany do pliku bazy danych UGENE. Takie podejście ma swoje wady i zalety. Zaletą jest to, że umożliwia to przeglądanie całego zestawu, nawigację w nim i szybkie przechodzenie do dobrze pokrytych regionów. Wadą jest to, że konwersja może zająć dużo czasu w przypadku dużego pliku i wymaga wystarczającej ilości miejsca na dysku do przechowywania bazy danych.
Projektant przepływu pracy
UGENE Workflow Designer umożliwia tworzenie i uruchamianie złożonych obliczeniowych schematów przepływu pracy .
Cechą wyróżniającą Workflow Designer na tle innych bioinformatycznych systemów zarządzania przepływem pracy jest to, że przepływy pracy są wykonywane na komputerze lokalnym. Pomaga uniknąć problemów z przesyłaniem danych, podczas gdy poleganie innych narzędzi na zdalnym przechowywaniu plików i łączności internetowej nie.
Elementy, z których składa się przepływ pracy, odpowiadają większości algorytmów zintegrowanych z UGENE. Korzystanie z narzędzia Workflow Designer umożliwia również tworzenie niestandardowych elementów przepływu pracy. Elementy mogą być oparte na narzędziu wiersza poleceń lub skrypcie.
Przepływy pracy są przechowywane w specjalnym formacie tekstowym. Pozwala to na ich ponowne wykorzystanie i przenoszenie między użytkownikami.
Przepływ pracy można uruchomić za pomocą interfejsu graficznego lub uruchomić z wiersza poleceń. Graficzny interfejs umożliwia również sterowanie wykonywaniem workflow, zapisywanie parametrów itp.
Istnieje wbudowana biblioteka próbek przepływów pracy do konwersji, filtrowania i opisywania danych, z kilkoma potokami do analizy danych NGS opracowanymi we współpracy z NIH NIAID. Kreator jest dostępny dla każdego przykładowego przepływu pracy.
Obsługiwane formaty danych biologicznych
- Sekwencje i adnotacje : FASTA (.fa), GenBank (.gb), EMBL (.emb), GFF (.gff)
- Wiele dopasowań sekwencji : Clustal (.aln), MSF (.msf), Stockholm (.sto), Nexus (.nex)
- Struktury 3D : PDB (.pdb), MMDB (.prt)
- Chromatogramy : ABIF (.abi), SCF (.scf)
- Krótkie odczyty: Sequence Alignment/Map (SAM) (.sam), binarna wersja SAM (.bam), ACE (.ace), FASTQ (.fastq)
- Drzewa filogenetyczne : Newick (.nwk), PHYLIP (.phy)
- Inne formaty: Bairoch ( informacje o enzymach ), HMM ( profile HMMER ), PWM i PFM ( macierze pozycji ), SNP i VCF4 (wariacje genomu)
Cykl wydania
UGENE jest rozwijany głównie przez Unipro LLC z siedzibą w Akademgorodok w Nowosybirsku w Rosji. Każda iteracja trwa około 1–2 miesięcy, po czym następuje nowa wersja . Można również pobrać migawki programistyczne.
Funkcje, które mają być uwzględnione w każdej wersji, są w większości inicjowane przez użytkowników.
Zobacz też
- Oprogramowanie do dopasowywania sekwencji
- Bioinformatyka
- Biologia obliczeniowa
- Lista otwartego oprogramowania bioinformatycznego