PubChem

PubChem
PubChem logo.svg
Treść
Opis Chemikalia i ich testy biologiczne
Organizmy Ludzie i inne zwierzęta
Kontakt
Centrum Badań NCBI
Cytowanie podstawowe   PMID 15879180
Dostęp
Strona internetowa https://pubchem.ncbi.nlm.nih.gov/
Pobierz URL FTP
Adres URL usługi internetowej Widok PUG
Różnorodny
Licencja Domena publiczna

PubChem to baza danych molekuł chemicznych i ich aktywności w testach biologicznych . System jest obsługiwany przez National Center for Biotechnology Information (NCBI), składnik National Library of Medicine , która jest częścią National Institutes of Health (NIH) Stanów Zjednoczonych . Dostęp do PubChem jest bezpłatny poprzez internetowy interfejs użytkownika . Miliony złożonych struktur i opisowych zestawów danych można bezpłatnie pobrać za pośrednictwem FTP . PubChem zawiera wiele opisów substancji i małych cząsteczek o mniej niż 100 atomach i 1000 wiązań. Ponad 80 dostawców baz danych współtworzy rosnącą bazę danych PubChem.

Historia

PubChem został wydany w 2004 roku jako składnik Programu Bibliotek Molekularnych (MLP) NIH. Od listopada 2015 r. PubChem zawiera ponad 150 milionów opisów substancji dostarczonych przez deponentów, 60 milionów unikalnych struktur chemicznych i 225 milionów wyników testów aktywności biologicznej (z ponad 1 miliona eksperymentów przeprowadzonych na ponad 2 milionach małych cząsteczek obejmujących prawie 10 000 unikalnych sekwencji docelowych białek, które odpowiadają ponad 5000 genów). Zawiera również testy przesiewowe interferencji RNA (RNAi), których celem jest ponad 15 000 genów.

Według stanu na sierpień 2018 r. PubChem zawiera 247,3 mln opisów substancji, 96,5 mln unikalnych struktur chemicznych, pochodzących z 629 źródeł danych z 40 krajów. Zawiera również 237 milionów wyników testów bioaktywności z 1,25 miliona testów biologicznych, obejmujących ponad 10 000 sekwencji białek docelowych.

Od 2020 r., dzięki integracji danych z ponad 100 nowych źródeł, PubChem zawiera ponad 293 miliony opisów substancji dostarczonych przez deponentów, 111 milionów unikalnych struktur chemicznych i 271 milionów punktów danych dotyczących bioaktywności z 1,2 miliona eksperymentów z testami biologicznymi.

Bazy danych

PubChem składa się z trzech dynamicznie rozwijających się podstawowych baz danych. Stan na dzień 5 listopada 2020 r. (liczba testów biologicznych bez zmian):

  • Związki, 111 mln wpisów (wzrost z 94 mln wpisów w 2017 r.), zawiera czyste i scharakteryzowane związki chemiczne.
  • Substancje, 293 mln wpisów (wzrost z 236 mln wpisów w 2017 r. i 163 mln wpisów we wrześniu 2014 r.), zawiera także mieszaniny, ekstrakty , kompleksy i substancje niescharakteryzowane.
  • BioAssay bioaktywność wynika z 1,25 miliona (wzrost z 6000 we wrześniu 2014) wysokowydajnych programów przesiewowych z kilkoma milionami wartości.

Badawczy

Przeszukiwanie baz danych jest możliwe pod kątem szerokiego zakresu właściwości, w tym struktury chemicznej, fragmentów nazw, wzoru chemicznego , masy cząsteczkowej , XLogP oraz liczby donorów i akceptorów wiązań wodorowych .

PubChem zawiera własny internetowy edytor cząsteczek z obsługą SMILES /SMARTS i InChI , który umożliwia import i eksport wszystkich popularnych formatów plików chemicznych w celu wyszukiwania struktur i fragmentów.

Każde trafienie dostarcza informacji o synonimach, właściwościach chemicznych, strukturze chemicznej, w tym ciągach SMILES i InChI, bioaktywności oraz linkach do strukturalnie powiązanych związków i innych baz danych NCBI, takich jak PubMed .

W formularzu wyszukiwania tekstowego pola bazy danych można przeszukiwać dodając do wyszukiwanego hasła nazwę pola w nawiasach kwadratowych. Zakres numeryczny jest reprezentowany przez dwie liczby oddzielone dwukropkiem. W terminach wyszukiwania i nazwach pól nie jest rozróżniana wielkość liter. Można używać nawiasów okrągłych i operatorów logicznych AND, OR i NOT. Zakłada się, że operator AND nie jest używany.

Przykład ( reguła pięciu Lipińskiego ):

0:500[mw] 0:5[hbdc] 0:10[hbac] -5:5[logp]

Pola bazy danych


Numery identyfikacyjne
Numer identyfikacyjny w aktualnej bazie danych [identyfikator użytkownika]
Numer identyfikacyjny substancji [SID]
Numer identyfikacyjny związku [identyfikator klienta]
Numer identyfikacyjny testu biologicznego [POMOC], [POMOC]

Ogólny
Dowolne pole bazy danych [WSZYSTKO]
Komentarz [CMT]
Data złożenia [DDAT], [DEPDAT]
Zewnętrzny identyfikator deponenta [SRID], [SRCID]
Nazwa źródła [SRC], [SRCNAM], [SRCNAZWA]
Data wydania źródła [SRD], [SRDAT], [RLSDAT]
nagłówek podmiotu medycznego (MeSH). [MSHT], [SIATKA]
Węzeł drzewa MeSH [MSHN], [SIATKA]
Działania farmakologiczne MeSH [PHMA], [PHARMA]

Właściwości substancji
Synonimy substancji [SYN]
nazwa IUPAC [UPAC], [IUPAC]
Międzynarodowy identyfikator chemiczny (InChI) [INCHI]
Waga molekularna [MW], [MWT], [MOLWT]
Pierwiastki chemiczne [ELMT], [EL]
Atomy inne niż wodór [HAC], [HACNT]
Liczba izotopów [IAC], [IACNT]
Całkowita opłata formalna [TFC], [CHG], [CHRG]
Chiralna liczba atomów [ACC], [ACCNT]
Zdefiniowana liczba atomów chiralnych [ACDC], [ACDCNT]
Niezdefiniowana liczba atomów chiralnych [ACUC], [ACUCNT]
Liczba akceptorów wiązań wodorowych [HBAC], [HBACNT]
Liczba dawców wiązań wodorowych [HBDC], [HBDCNT]
Liczba tautomerów [TC], [TCNT], [TTMC]
Obrotowa liczba obligacji [PZB], [PZBNT]
XLogP [XLGP], [LOGP]

Właściwości złożone
Synonimy złożone [CZYN], [CSYNO]
Liczba komponentów [CC], [CCNT]
Liczba jednostek kowalencyjnych (cząsteczek). [CUC], [CUCNT]
Całkowita liczba bioaktywności [TAK]

Zobacz też

  • Chemiczna baza danych
    • CAS Common Chemistry - prowadzony przez American Chemical Society
    • Porównawcza baza danych toksykogenomiki - prowadzona przez North Carolina State University
    • ChEMBL - prowadzony przez Europejski Instytut Bioinformatyki
    • ChemSpider – prowadzony przez brytyjskie Królewskie Towarzystwo Chemii
    • DrugBank - prowadzony przez University of Alberta
    • IUPAC - prowadzony przez szwajcarską Międzynarodową Unię Chemii Czystej i Stosowanej (IUPAC)
    • Moltable - prowadzony przez Narodowe Laboratorium Chemiczne Indii
    • PubChem – prowadzony przez National Institute of Health, USA
    • BindingDB — prowadzony przez Uniwersytet Kalifornijski w San Diego
    • SCRIPDB – prowadzony przez University of Toronto, Kanada
    • National Center for Biotechnology Information (NCBI) – prowadzone przez National Institute of Health, USA
    • Entrez – prowadzony przez National Institute of Health, USA
    • GenBank – prowadzony przez National Institute of Health, USA

Linki zewnętrzne