Plik tabeli chemicznej
Plik tabeli chemicznej (plik CT) to rodzina tekstowych formatów plików chemicznych opisujących cząsteczki i reakcje chemiczne. Jeden format, na przykład, wymienia każdy atom w cząsteczce, współrzędne xyz tego atomu i wiązania między atomami.
Formaty plików
W rodzinie jest kilka formatów plików.
Formaty zostały stworzone przez MDL Information Systems (MDL) , która została przejęta przez Symyx Technologies, a następnie połączona z Accelrys Corp., a teraz nazywa się BIOVIA, spółka zależna Dassault Systemes z Dassault Group .
Plik CT jest formatem otwartym , BIOVIA publikuje swoją specyfikację. BIOVIA wymaga od użytkowników zarejestrowania się w celu pobrania specyfikacji formatu CTFile.
Plik molowy
Rozszerzenie nazwy pliku |
.mol
|
---|---|
Rodzaj mediów internetowych |
plik chemiczny/x-mdl-mol
|
Typ formatu | format pliku chemicznego |
MDL Molfile to format pliku do przechowywania informacji o atomach, wiązaniach, łączności i współrzędnych cząsteczki.
Plik mol składa się z niektórych informacji nagłówkowych, tabeli połączeń (CT) zawierającej informacje o atomach, następnie połączeń i typów wiązań, po których następują sekcje zawierające bardziej złożone informacje.
Plik mol jest na tyle powszechny, że większość, jeśli nie wszystkie, systemy/aplikacje oprogramowania chemiczno-informatycznego są w stanie odczytać ten format, choć nie zawsze w takim samym stopniu. Jest również obsługiwany przez niektóre programy obliczeniowe, takie jak Mathematica .
Obecną de facto standardową wersją jest molfile V2000, chociaż ostatnio format V3000 krąży na tyle szeroko, że stwarza potencjalny problem ze zgodnością dla tych aplikacji, które nie obsługują jeszcze V3000.
L-Alanina |
Wiersz tytułu (może być pusty, ale wiersz musi istnieć) |
Blok nagłówka
(3 linie) |
---|---|---|
ABCDEFGH09071717443D |
Linia znacznika czasu programu / pliku
(Nazwa programu źródłowego i znacznik czasu pliku) |
|
Eksportowane |
Wiersz komentarza (może być pusty, ale wiersz musi istnieć) | |
6 5 0 0 1 0 3 V2000 |
Linia liczy | Tabela połączeń |
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0 -0,7207 2,0817 0,0000 C 1 0 0 0 0 0 -1,8622 -0,3695 0,000 0 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1,9464 0,4244 0,0000 O 0 5 0 0 0 0 |
Blok atomowy
(1 linia dla każdego atomu): x, y, z (w angstremach ), pierwiastek itp. |
|
1 2 1 0 0 0 1 3 1 1 0 0 1 4 1 0 0 0 2 5 2 0 0 0 2 6 1 0 0 0 |
Blok Bonda
(1 linia dla każdego wiązania): 1. atom, 2. atom, typ itp. |
|
M CHG 2 4 1 6 -1 M ISO 1 3 13 |
Blok właściwości | |
M KONIEC |
Koniec linii
(UWAGA: niektóre programy nie lubią pustej linii przed M END) |
KONIEC |
Zlicza specyfikację bloku linii
Wartość | 6 | 5 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Opis | liczba atomów | liczba obligacji | numer listy atomów | Flaga chiralna, 1 = chiralna; 0 = nie chiralny |
liczba wpisów tekstowych | liczba wierszy dodatkowe właściwości |
wersja molowa |
Typ | [Ogólny] | [Ogólny] | [Zapytanie] | [Ogólny] | [ISIS/Pulpit] | [Ogólny] |
Specyfikacja bloku obligacji
obligacji składa się z linii obligacji, po jednej linii na obligację, w następującym formacie :
111 222 ttt sss xxx rrr ccc
gdzie wartości są opisane w poniższej tabeli:
Pole | Oznaczający | Wartości |
---|---|---|
111 | pierwsza liczba atomowa | |
222 | druga liczba atomowa | |
ttt | rodzaj obligacji | 1 = Pojedynczy, 2 = Podwójny, 3 = Potrójny, 4 = Aromatyczny, 5 = Pojedynczy lub podwójny, 6 = Pojedynczy lub aromatyczny, 7 = Podwójny lub aromatyczny, 8 = Dowolny |
sss | stereo Bonda | W przypadku obligacji pojedynczych: 0 = brak stereo; 1= w górę; 4=albo, 6=w dół W przypadku wiązań podwójnych: 0= Użyj współrzędnych x-, y-, z z bloku atomowego, aby określić cis lub trans; 3=Podwójne wiązanie cis lub trans (dowolne). |
xxx | nieużywany | |
rrr | topologia wiązań | 0 = Albo, 1 = Pierścień, 2 = Łańcuch |
ccc | status ośrodka reagującego | 0 = nieoznaczone, 1 = środek, -1 = brak środka, dodatkowe: 2 = brak zmian, 4 = obligacja wykonana/zerwana, 8 = zmiany kolejności obligacji 12 = 4+8 (zarówno dokonane/złamane, jak i zmiany); 5 = (4 + 1), 9 = (8 + 1) i 13 = (12 + 1) są również możliwe |
Rozszerzona tabela połączeń (V3000)
Rozszerzony (V3000) plik molfile składa się ze zwykłego pliku molfile „bez struktury”, po którym następuje pojedynczy dodatek molfile zawierający treść tabeli połączeń (Ctab). Poniższy rysunek przedstawia zarówno strukturę alaniny, jak i odpowiadający jej rozszerzony plik molowy.
Należy zauważyć, że „brak struktury” jest oznaczony „V3000” zamiast stempla wersji „V2000”. Oprócz wersji w nagłówku wprowadzono dwie inne zmiany:
- Liczba linii dodatku jest zawsze zapisywana jako 999, niezależnie od tego, ile ich faktycznie jest. (Wszyscy obecni czytelnicy zignorują liczbę i zatrzymają się na M END.)
- „Kod wymiarowy” jest zachowany bardziej wyraźnie. Tak więc „3D” naprawdę oznacza 3D, chociaż „2D” będzie interpretowane jako 3D, jeśli zostaną znalezione jakiekolwiek niezerowe współrzędne Z.
W przeciwieństwie do pliku mol V2000, rozszerzony plik mol V3000 Rgroup ma ten sam format nagłówka, co plik mol inny niż Rgroup.
L-Alanina |
Opis | Blok nagłówka |
---|---|---|
GSMACCS-II07189510252D 1 0,00366 0,00000 0 |
Nagłówek ze znacznikiem czasu | |
Figura 1, J. Chem. Inf. Oblicz. Sci., tom 32, nr 3, 1992 |
Linia komentarza | |
0 0 0 0 0 999 V3000 |
Linia kompatybilności z V2000 | |
M V30 ROZPOCZNIJ CTAB |
Tabela połączeń | |
M V30 LICZY 6 5 0 0 1 |
Linia liczy | |
M V30 ATOM POCZĄTKOWY M V30 1 C -0,6622 0,5342 0 0 CFG=2 M V30 2 C 0,6622 -0,3 0 0 M V30 3 C -0,7207 2,0817 0 0 MASA=13 M V30 4 N -1,8622 -0,3695 0 0 CHG=1 M V30 5 O 0,622 -1,8037 0 0 M V30 6 O 1,9464 0,4244 0 0 CHG=-1 M V30 ATOM KOŃCOWY |
Blok atomowy | |
M V30 POCZĄTEK WIĄZANIA M V30 1 1 1 2 M V30 2 1 1 3 CFG=1 M V30 3 1 1 4 M V30 4 2 2 5 M V30 5 1 2 6 M V30 KOŃCOWY WIĄZANIE |
Blok Bonda | |
M V30 KONIEC CTAB M KONIEC |
Linia liczy
Linia zliczania jest wymagana i musi być pierwsza. Określa liczbę atomów, wiązań, obiektów 3D i grup S. Określa również, czy flaga CHIRAL jest ustawiona. Opcjonalnie wiersz zliczeń może określać molregno. Jest to używane tylko wtedy, gdy regno przekracza 999999 (limit formatu w linii nagłówka molfile). Format wiersza zliczeń to:
M V30 LICZY | nie | nb | nsg | n3d | chiralny | [REGNO=regno] |
M V30 LICZY | 6 | 5 | 0 | 0 | 1 | |
SDF
Rozszerzenie nazwy pliku |
.sd , .sdf
|
---|---|
Rodzaj mediów internetowych |
plik chemiczny/x-mdl-sd
|
Typ formatu | format pliku chemicznego |
SDF jest jednym z rodziny formatów plików danych chemicznych opracowanych przez MDL; jest przeznaczony w szczególności do informacji strukturalnych. „SDF” oznacza plik danych strukturalnych, a pliki SDF faktycznie opakowują format molfile ( MDL Molfile ). Wiele rekordów jest rozdzielonych liniami składającymi się z czterech znaków dolara ($$$$). Cechą formatu SDF jest możliwość dołączania powiązanych danych.
Powiązane elementy danych są oznaczone w następujący sposób:
> < Unique_ID> XCA3464366 > < ClogP> 5,825 > < Sprzedawca> Sigma > < Masa cząsteczkowa> 499,611
Obsługiwane są również wielowierszowe elementy danych. Specyfikacja formatu MDL SDF wymaga wstawienia znaku powrotu karetki, jeśli pojedynczy wiersz dowolnego pola tekstowego przekracza 200 znaków. Wymóg ten jest często łamany w praktyce, ponieważ wiele SMILES i InChI przekracza tę długość.
Inne formaty rodziny
Istnieją inne, rzadziej używane formaty rodziny:
- RXNFile - do reprezentowania pojedynczej reakcji chemicznej;
- RDFile - do reprezentowania listy rekordów z powiązanymi danymi. Każdy rekord może zawierać struktury chemiczne, reakcje, dane tekstowe i tabelaryczne;
- RGFile - do reprezentowania struktur Markusha (przestarzałe, Molfile V3000 może reprezentować struktury Markusha);
- XDFile — do reprezentowania informacji chemicznych w formacie XML .
Zobacz też
Linki zewnętrzne
- SDF Prò płatne oprogramowanie do przetwarzania plików SD (SDF) od Adroit DI .
- Darmowe oprogramowanie SDF Toolkit do przetwarzania plików SD (SDF).
- NCI/CADD Chemical Identifier Resolver generuje pliki SD (SDF) z nazw chemicznych, numerów rejestru CAS, SMILES, InChI, InChIKey, ....
- KNIME do manipulowania danymi i eksploracji danych, może również odczytywać i zapisywać pliki SD (SDF).
- Comparative Toxicology Dashboard świadczona przez Agencję Ochrony Środowiska (EPA), która generuje pliki SD (SDF) na podstawie nazw chemicznych, numerów rejestru CAS, SMILES, InChI, InChIKey, ...