Plik tabeli chemicznej

Plik tabeli chemicznej (plik CT) to rodzina tekstowych formatów plików chemicznych opisujących cząsteczki i reakcje chemiczne. Jeden format, na przykład, wymienia każdy atom w cząsteczce, współrzędne xyz tego atomu i wiązania między atomami.

Formaty plików

W rodzinie jest kilka formatów plików.

Formaty zostały stworzone przez MDL Information Systems (MDL) , która została przejęta przez Symyx Technologies, a następnie połączona z Accelrys Corp., a teraz nazywa się BIOVIA, spółka zależna Dassault Systemes z Dassault Group .

Plik CT jest formatem otwartym , BIOVIA publikuje swoją specyfikację. BIOVIA wymaga od użytkowników zarejestrowania się w celu pobrania specyfikacji formatu CTFile.

Plik molowy

ctab
Rozszerzenie nazwy pliku
.mol
Rodzaj mediów internetowych
plik chemiczny/x-mdl-mol
Typ formatu format pliku chemicznego

MDL Molfile to format pliku do przechowywania informacji o atomach, wiązaniach, łączności i współrzędnych cząsteczki.

Plik mol składa się z niektórych informacji nagłówkowych, tabeli połączeń (CT) zawierającej informacje o atomach, następnie połączeń i typów wiązań, po których następują sekcje zawierające bardziej złożone informacje.

Plik mol jest na tyle powszechny, że większość, jeśli nie wszystkie, systemy/aplikacje oprogramowania chemiczno-informatycznego są w stanie odczytać ten format, choć nie zawsze w takim samym stopniu. Jest również obsługiwany przez niektóre programy obliczeniowe, takie jak Mathematica .

Obecną de facto standardową wersją jest molfile V2000, chociaż ostatnio format V3000 krąży na tyle szeroko, że stwarza potencjalny problem ze zgodnością dla tych aplikacji, które nie obsługują jeszcze V3000.

Zawartość pliku molowego L-alaniny
L-Alanina
Wiersz tytułu (może być pusty, ale wiersz musi istnieć) Blok nagłówka

(3 linie)

ABCDEFGH09071717443D
Linia znacznika czasu programu / pliku

(Nazwa programu źródłowego i znacznik czasu pliku)

Eksportowane
Wiersz komentarza (może być pusty, ale wiersz musi istnieć)
6 5 0 0 1 0 3 V2000
Linia liczy Tabela połączeń
-0,6622 0,5342 0,0000 C 0 0 2 0 0 0 0,6622 -0,3000 0,0000 C 0 0 0 0 0 0 -0,7207 2,0817 0,0000 C 1 0 0 0 0 0 -1,8622 -0,3695 0,000 0 N 0 3 0 0 0 0 0,6220 -1,8037 0,0000 O 0 0 0 0 0 0 1,9464 0,4244 0,0000 O 0 5 0 0 0 0
Blok atomowy

(1 linia dla każdego atomu): x, y, z (w angstremach ), pierwiastek itp.

1 2 1 0 0 0 1 3 1 1 0 0 1 4 1 0 0 0 2 5 2 0 0 0 2 6 1 0 0 0
Blok Bonda

(1 linia dla każdego wiązania): 1. atom, 2. atom, typ itp.

M CHG 2 4 1 6 -1 M ISO 1 3 13
Blok właściwości
M KONIEC
Koniec linii

(UWAGA: niektóre programy nie lubią pustej linii przed M END)

KONIEC

Zlicza specyfikację bloku linii

Wartość 6 5 0 0 0 1 V2000
Opis liczba atomów liczba obligacji numer listy atomów Flaga chiralna, 1 = chiralna;

0 = nie chiralny

liczba wpisów tekstowych liczba wierszy

dodatkowe właściwości

wersja molowa
Typ [Ogólny] [Ogólny] [Zapytanie] [Ogólny] [ISIS/Pulpit] [Ogólny]

Specyfikacja bloku obligacji

obligacji składa się z linii obligacji, po jednej linii na obligację, w następującym formacie :

111 222 ttt sss xxx rrr ccc

gdzie wartości są opisane w poniższej tabeli:

Pole Oznaczający Wartości
111 pierwsza liczba atomowa
222 druga liczba atomowa
ttt rodzaj obligacji 1 = Pojedynczy, 2 = Podwójny, 3 = Potrójny, 4 = Aromatyczny, 5 = Pojedynczy lub podwójny, 6 = Pojedynczy lub aromatyczny, 7 = Podwójny lub aromatyczny, 8 = Dowolny
sss stereo Bonda W przypadku obligacji pojedynczych:

0 = brak stereo; 1= w górę; 4=albo, 6=w dół

W przypadku wiązań podwójnych:

0= Użyj współrzędnych x-, y-, z z bloku atomowego, aby określić cis lub trans; 3=Podwójne wiązanie cis lub trans (dowolne).

xxx nieużywany
rrr topologia wiązań 0 = Albo, 1 = Pierścień, 2 = Łańcuch
ccc status ośrodka reagującego 0 = nieoznaczone, 1 = środek, -1 = brak środka, dodatkowe: 2 = brak zmian, 4 = obligacja wykonana/zerwana, 8 = zmiany kolejności obligacji

12 = 4+8 (zarówno dokonane/złamane, jak i zmiany);

5 = (4 + 1), 9 = (8 + 1) i 13 = (12 + 1) są również możliwe

Rozszerzona tabela połączeń (V3000)

Rozszerzony (V3000) plik molfile składa się ze zwykłego pliku molfile „bez struktury”, po którym następuje pojedynczy dodatek molfile zawierający treść tabeli połączeń (Ctab). Poniższy rysunek przedstawia zarówno strukturę alaniny, jak i odpowiadający jej rozszerzony plik molowy.

Należy zauważyć, że „brak struktury” jest oznaczony „V3000” zamiast stempla wersji „V2000”. Oprócz wersji w nagłówku wprowadzono dwie inne zmiany:

  • Liczba linii dodatku jest zawsze zapisywana jako 999, niezależnie od tego, ile ich faktycznie jest. (Wszyscy obecni czytelnicy zignorują liczbę i zatrzymają się na M END.)
  • „Kod wymiarowy” jest zachowany bardziej wyraźnie. Tak więc „3D” naprawdę oznacza 3D, chociaż „2D” będzie interpretowane jako 3D, jeśli zostaną znalezione jakiekolwiek niezerowe współrzędne Z.

W przeciwieństwie do pliku mol V2000, rozszerzony plik mol V3000 Rgroup ma ten sam format nagłówka, co plik mol inny niż Rgroup.

L-Alanine.svg
L-Alanina
Opis Blok nagłówka
GSMACCS-II07189510252D 1 0,00366 0,00000 0
Nagłówek ze znacznikiem czasu
Figura 1, J. Chem. Inf. Oblicz. Sci., tom 32, nr 3, 1992
Linia komentarza
0 0 0 0 0 999 V3000
Linia kompatybilności z V2000
M V30 ROZPOCZNIJ CTAB
Tabela połączeń
M V30 LICZY 6 5 0 0 1
Linia liczy
M V30 ATOM POCZĄTKOWY M V30 1 C -0,6622 0,5342 0 0 CFG=2 M V30 2 C 0,6622 -0,3 0 0 M V30 3 C -0,7207 2,0817 0 0 MASA=13 M V30 4 N -1,8622 -0,3695 0 0 CHG=1 M V30 5 O 0,622 -1,8037 0 0 M V30 6 O 1,9464 0,4244 0 0 CHG=-1 M V30 ATOM KOŃCOWY
Blok atomowy
M V30 POCZĄTEK WIĄZANIA M V30 1 1 1 2 M V30 2 1 1 3 CFG=1 M V30 3 1 1 4 M V30 4 2 2 5 M V30 5 1 2 6 M V30 KOŃCOWY WIĄZANIE
Blok Bonda
M V30 KONIEC CTAB M KONIEC

Linia liczy

Linia zliczania jest wymagana i musi być pierwsza. Określa liczbę atomów, wiązań, obiektów 3D i grup S. Określa również, czy flaga CHIRAL jest ustawiona. Opcjonalnie wiersz zliczeń może określać molregno. Jest to używane tylko wtedy, gdy regno przekracza 999999 (limit formatu w linii nagłówka molfile). Format wiersza zliczeń to:

M V30 LICZY na nb nsg n3d chiralne
M V30 LICZY nie nb nsg n3d chiralny [REGNO=regno]
M V30 LICZY 6 5 0 0 1
liczba atomów
liczba obligacji
liczba Sgrup
liczba wiązań 3D
jeśli 1 = cząsteczka jest chiralna
molekuła lub model regno

SDF

ctab
Rozszerzenie nazwy pliku
.sd , .sdf
Rodzaj mediów internetowych
plik chemiczny/x-mdl-sd
Typ formatu format pliku chemicznego

SDF jest jednym z rodziny formatów plików danych chemicznych opracowanych przez MDL; jest przeznaczony w szczególności do informacji strukturalnych. „SDF” oznacza plik danych strukturalnych, a pliki SDF faktycznie opakowują format molfile ( MDL Molfile ). Wiele rekordów jest rozdzielonych liniami składającymi się z czterech znaków dolara ($$$$). Cechą formatu SDF jest możliwość dołączania powiązanych danych.

Powiązane elementy danych są oznaczone w następujący sposób:

  
 
  

  

   >  <  Unique_ID>  XCA3464366  >  <  ClogP>  5,825  >  <  Sprzedawca>  Sigma  >  <  Masa cząsteczkowa>  499,611 

Obsługiwane są również wielowierszowe elementy danych. Specyfikacja formatu MDL SDF wymaga wstawienia znaku powrotu karetki, jeśli pojedynczy wiersz dowolnego pola tekstowego przekracza 200 znaków. Wymóg ten jest często łamany w praktyce, ponieważ wiele SMILES i InChI przekracza tę długość.

Inne formaty rodziny

Istnieją inne, rzadziej używane formaty rodziny:

  • RXNFile - do reprezentowania pojedynczej reakcji chemicznej;
  • RDFile - do reprezentowania listy rekordów z powiązanymi danymi. Każdy rekord może zawierać struktury chemiczne, reakcje, dane tekstowe i tabelaryczne;
  • RGFile - do reprezentowania struktur Markusha (przestarzałe, Molfile V3000 może reprezentować struktury Markusha);
  • XDFile — do reprezentowania informacji chemicznych w formacie XML .

Zobacz też

Linki zewnętrzne