Uproszczony system wprowadzania linii z wejściem molekularnym
Rozszerzenie nazwy pliku |
.smi
|
---|---|
Rodzaj mediów internetowych |
chemiczny/x-dzienny-uśmiech
|
Typ formatu | format pliku chemicznego |
Uproszczony molekularny system wprowadzania linii ( SMILES ) jest specyfikacją w postaci notacji liniowej do opisu struktury związków chemicznych za pomocą krótkich łańcuchów ASCII . Ciągi SMILES mogą być importowane przez większość edytorów cząsteczek w celu konwersji z powrotem na dwuwymiarowe rysunki lub trójwymiarowe modele cząsteczek.
Oryginalna specyfikacja SMILES została zapoczątkowana w latach 80-tych. Od tego czasu został zmodyfikowany i rozszerzony. W 2007 roku w społeczności chemików open source opracowano otwarty standard o nazwie OpenSMILES.
Historia
Oryginalna specyfikacja SMILES została zapoczątkowana przez Davida Weiningera w USEPA Mid-Continent Ecology Division Laboratory w Duluth w latach 80-tych. Uznani za swój udział we wczesnym rozwoju: „Gilman Veith i Rose Russo (USEPA) oraz Albert Leo i Corwin Hansch ( Pomona College ) za wsparcie pracy, a także Arthur Weininger (Pomona; Daylight CIS) i Jeremy Scofield (Cedar River Software, Renton, WA) za pomoc w programowaniu systemu.” Agencja Ochrony Środowiska sfinansowała wstępny projekt opracowania SMILES.
Od tego czasu został zmodyfikowany i rozszerzony przez innych, w szczególności przez Daylight Chemical Information Systems. W 2007 roku społeczność chemiczna Blue Obelisk opracowała otwarty standard o nazwie „OpenSMILES”. Inne notacje „liniowe” obejmują Wiswesser Line Notation (WLN), ROSDAL i SLN (Tripos Inc).
W lipcu 2006 IUPAC wprowadził InChI jako standard reprezentacji formuł. Ogólnie uważa się, że SMILES ma tę zaletę, że jest bardziej czytelny dla człowieka niż InChI; ma również szeroką bazę oprogramowania z obszernym zapleczem teoretycznym (takim jak teoria grafów ).
Terminologia
Termin SMILES odnosi się do notacji liniowej do kodowania struktur molekularnych, a określone przypadki powinny być ściśle nazywane ciągami SMILES. Jednak termin SMILES jest również powszechnie używany w odniesieniu zarówno do pojedynczego ciągu SMILES, jak i wielu ciągów SMILES; dokładne znaczenie wynika zwykle z kontekstu. Terminy „kanoniczny” i „izomeryczny” mogą prowadzić do pewnych nieporozumień w odniesieniu do UŚMIECHÓW. Terminy opisują różne atrybuty ciągów SMILES i nie wykluczają się wzajemnie.
Zazwyczaj dla cząsteczki można zapisać kilka równie poprawnych ciągów SMILES. Na przykład CCO
, OCC
i C(O)C
określają strukturę etanolu . Opracowano algorytmy do generowania tego samego ciągu SMILES dla danej cząsteczki; spośród wielu możliwych łańcuchów, te algorytmy wybierają tylko jeden z nich. Ten SMILES jest unikalny dla każdej struktury, chociaż zależy od kanonizacji algorytmu użytego do jego wygenerowania i jest określany jako kanoniczny UŚMIECH. Algorytmy te najpierw przekształcają SMILES w wewnętrzną reprezentację struktury molekularnej; algorytm następnie bada tę strukturę i tworzy unikalny ciąg SMILES. Opracowano różne algorytmy generowania kanonicznych SMILES, w tym algorytmy Daylight Chemical Information Systems, OpenEye Scientific Software , MEDIT, Chemical Computing Group , MolSoft LLC oraz Chemistry Development Kit . Powszechnym zastosowaniem kanonicznych SMILES jest indeksowanie i zapewnianie unikalności molekuł w bazie danych .
Oryginalny artykuł opisujący algorytm CANGEN twierdził, że generuje unikalne ciągi SMILES dla grafów reprezentujących cząsteczki, ale algorytm zawodzi w wielu prostych przypadkach (np. cunean , 1,2-dicyklopropyloetan) i nie można go uznać za poprawną metodę przedstawiania wykresu kanonicznie. Obecnie nie ma systematycznego porównania oprogramowania komercyjnego w celu sprawdzenia, czy takie wady występują w tych pakietach.
Notacja SMILES umożliwia określenie konfiguracji w centrach czworościennych i geometrii wiązań podwójnych. Są to cechy strukturalne, których nie można określić samą łącznością, dlatego SMILES, które kodują te informacje, są określane jako izomeryczne SMILES. Godną uwagi cechą tych reguł jest to, że pozwalają one na rygorystyczne częściowe określenie chiralności. Termin izomeryczny SMILES odnosi się również do SMILES, w których izomery .
Definicja oparta na wykresie
Pod względem procedury obliczeniowej opartej na grafach, SMILES jest ciągiem otrzymanym przez wydrukowanie węzłów symboli napotkanych podczas przechodzenia w głąb drzewa grafu chemicznego . Wykres chemiczny jest najpierw przycinany w celu usunięcia atomów wodoru, a cykle są przerywane, aby przekształcić go w drzewo rozpinające . Tam, gdzie cykle zostały przerwane, dołączone są etykiety sufiksów numerycznych, aby wskazać połączone węzły. Nawiasy służą do wskazania punktów rozgałęzień na drzewie.
Wynikowa forma SMILES zależy od wyborów:
- wiązań wybranych do przerwania cykli,
- atomu początkowego używanego do przejścia w głąb i
- kolejności, w jakiej gałęzie są wymienione po napotkaniu.
Definicja SMILES jako ciągi znaków języka bezkontekstowego
Z punktu widzenia formalnej teorii języka UŚMIECH jest słowem. SMILES można analizować za pomocą parsera bezkontekstowego. Wykorzystanie tej reprezentacji polegało na przewidywaniu właściwości biochemicznych (w tym toksyczności i biodegradowalności ) w oparciu o główną zasadę chemioinformatyki, że podobne cząsteczki mają podobne właściwości. W modelach predykcyjnych wdrożono metodę rozpoznawania wzorców składniowych (obejmującą zdefiniowanie odległości molekularnej), a także bardziej niezawodny schemat oparty na statystycznym rozpoznawaniu wzorców.
Opis
Atomy
Atomy są reprezentowane przez standardowe skróty pierwiastków chemicznych w nawiasach kwadratowych, takie jak [Au]
dla złota . Nawiasy można pominąć we wspólnym przypadku atomów, które:
- należą do „ podzbioru organicznego ” B , C , N , O , P , S , F , Cl , Br lub I , oraz
- nie mają formalnego obciążenia i
- mają liczbę przyłączonych wodorów wynikającą z modelu walencyjnego SMILES (zwykle ich normalna wartościowość, ale dla N i P wynosi 3 lub 5, a dla S 2, 4 lub 6), oraz
- są normalnymi izotopami i
- nie są centrami chiralnymi .
Wszystkie inne pierwiastki muszą być ujęte w nawiasy kwadratowe i mieć wyraźnie pokazane ładunki i atomy wodoru. Na przykład SMILES dla wody można zapisać jako O
lub [OH2]
. Wodór można również zapisać jako oddzielny atom; wodę można również zapisać jako [H]O[H]
.
Gdy używane są nawiasy, symbol H
jest dodawany, jeśli atom w nawiasie jest związany z jednym lub większą liczbą atomów wodoru, po którym następuje liczba atomów wodoru, jeśli jest większa niż 1, następnie znak +
dla ładunku dodatniego lub -
dla ładunku ujemnego opłata. Na przykład [NH4+]
dla amoniaku ( NH
+ 4 ). Jeśli jest więcej niż jeden ładunek, jest on zwykle zapisywany jako cyfra; jednak możliwe jest również powtórzenie znaku tyle razy, ile jon ma ładunków: można napisać albo [Ti+4]
albo [Ti++++]
dla tytanu (IV) Ti 4+ . Zatem anion wodorotlenkowy ( OH − ) jest reprezentowany przez [OH-]
, kation hydroniowy ( H 3 O + ) to [OH3+]
, a kation kobaltu (III) (Co 3+ ) to albo [Co+3]
albo [Co+++]
.
Obligacje
Wiązanie jest reprezentowane za pomocą jednego z symboli . - = # $ : / \
.
wiązania między atomami alifatycznymi są pojedyncze, chyba że określono inaczej, i implikuje się je przez sąsiedztwo w ciągu SMILES. Chociaż pojedyncze wiązania można zapisać jako -
, zwykle jest to pomijane. Na przykład SMILES dla etanolu można zapisać jako CCO
, CC-O
lub C-CO
, ale zwykle jest to zapisywane jako CCO
.
Wiązania podwójne, potrójne i poczwórne są reprezentowane odpowiednio przez symbole =
, #
i $
, co ilustrują SMILES O=C=O
( dwutlenek węgla CO 2 ), C#N
( cyjanowodór HCN) i [Ga+]$[ As-]
( arsenek galu ).
Dodatkowym typem wiązania jest „non-bond”, oznaczony symbolem .
, aby wskazać, że dwie części nie są ze sobą połączone. Na przykład wodny chlorek sodu można zapisać jako [Na+].[Cl-]
, aby pokazać dysocjację.
Aromatyczne wiązanie „półtora” można wskazać za pomocą :
; patrz § Aromatyczność poniżej.
Wiązania pojedyncze sąsiadujące z wiązaniami podwójnymi można przedstawić za pomocą /
lub \
w celu wskazania konfiguracji stereochemicznej; patrz § Stereochemia poniżej.
Pierścienie
Struktury pierścieniowe są zapisywane przez rozbicie każdego pierścienia w dowolnym punkcie (chociaż niektóre wybory prowadzą do bardziej czytelnych UŚMIECHÓW niż inne), aby utworzyć strukturę acykliczną i dodać numeryczne etykiety zamknięcia pierścienia, aby pokazać łączność między niesąsiadującymi atomami.
Na przykład cykloheksan i dioksan można zapisać odpowiednio jako C1CCCCC1
i O1CCOCC1
. W przypadku drugiego pierścienia etykietą będzie 2. Na przykład dekalinę (dekahydronaftalen) można zapisać jako C1CCCC2C1CCCC2
.
SMILES nie wymaga, aby numery dzwonków były używane w określonej kolejności i dopuszcza numer dzwonka zero, chociaż jest to rzadko używane. Dozwolone jest również ponowne użycie numerów dzwonków po zamknięciu pierwszego dzwonka, chociaż zwykle utrudnia to odczytanie formuł. Na przykład bicykloheksyl jest zwykle zapisywany jako C1CCCCC1C2CCCCC2
, ale może być również zapisywany jako C0CCCC0C0CCCC0
.
Wiele cyfr po pojedynczym atomie wskazuje na wiele wiązań zamykających pierścień. Na przykład alternatywną notacją SMILES dla dekaliny jest C1CCCC2CCCCC12
, gdzie końcowy węgiel uczestniczy w obu wiązaniach zamykających pierścień 1 i 2. Jeśli wymagane są dwucyfrowe numery pierścieni, etykieta jest poprzedzona %
, więc C%12
jest pojedynczym wiązanie zamykające pierścień pierścienia 12.
Jedna lub obie cyfry mogą być poprzedzone typem wiązania, aby wskazać rodzaj wiązania zamykającego pierścień. Na przykład cyklopropen jest zwykle zapisywany jako C1=CC1
, ale jeśli jako wiązanie zamykające pierścień wybrano wiązanie podwójne, można je zapisać jako C=1CC1
, C1CC=1
lub C=1CC=1
. (Preferowana jest pierwsza forma.) C=1CC-1
jest niedozwolone, ponieważ jawnie określa sprzeczne typy wiązania zamykającego pierścień.
Wiązania zamykające pierścień nie mogą być używane do oznaczania wiązań wielokrotnych. Na przykład C1C1
nie jest prawidłową alternatywą dla C=C
dla etylenu . Można ich jednak używać z obligacjami innymi niż obligacje; C1.C2.C12
jest osobliwym, ale legalnym, alternatywnym sposobem zapisu propanu , częściej zapisywanym jako CCC
.
Wybór punktu przerwania pierścienia sąsiadującego z dołączonymi grupami może prowadzić do prostszej formy SMILES poprzez unikanie rozgałęzień. Na przykład cykloheksano-1,2-diol jest najprościej zapisany jako OC1CCCCC1O
; wybranie innej lokalizacji przerwania pierścienia tworzy rozgałęzioną strukturę, która wymaga napisania nawiasów.
Aromatyczność
aromatyczne , takie jak benzen, można zapisać w jednej z trzech postaci:
- W postaci Kekulé z naprzemiennymi wiązaniami pojedynczymi i podwójnymi, np.
C1=CC=CC=C1
, - Używając symbolu wiązania aromatycznego
:
, np.C:1:C:C:C:C:C1
, lub - Najczęściej przez zapisanie składowych atomów B, C, N, O, P i S odpowiednio małymi literami
b
,c
,n
,o
,p
is
.
W tym drugim przypadku zakłada się, że wiązania między dwoma atomami aromatycznymi (jeśli nie zostało to wyraźnie pokazane) są wiązaniami aromatycznymi. Tak więc benzen , pirydyna i furan mogą być reprezentowane odpowiednio przez SMILES c1ccccc1
, n1ccccc1
i o1cccc1
.
Azot aromatyczny związany z wodorem, występujący w pirolu , musi być przedstawiony jako [nH]
; tak więc imidazol jest zapisywany w notacji SMILES jako n1c[nH]cc1
.
Kiedy atomy aromatyczne są połączone ze sobą pojedynczo, tak jak w przypadku bifenylu , wiązanie pojedyncze musi być wyraźnie pokazane: c1ccccc1-c2ccccc2
. Jest to jeden z niewielu przypadków, w których wymagany jest symbol pojedynczego wiązania - .
(W rzeczywistości większość programów SMILES może prawidłowo wywnioskować, że wiązanie między dwoma pierścieniami nie może być aromatyczne, dlatego akceptuje niestandardową postać c1ccccc1c2cccc2
.)
Algorytmy Daylight i OpenEye do generowania kanonicznych SMILES różnią się sposobem traktowania aromatyczności.
Rozgałęzienie
Gałęzie są opisane w nawiasach, jak w CCC(=O)O
dla kwasu propionowego i FC(F)F
dla fluoroformu . Pierwszy atom w nawiasach i pierwszy atom po grupie w nawiasach są związane z tym samym atomem punktu rozgałęzienia. Symbol obligacji musi znajdować się w nawiasach; poza (Np.: CCC=(O)O
) jest nieprawidłowe.
Podstawione pierścienie można zapisać z punktem rozgałęzienia w pierścieniu, jak pokazano na SMILES COc(c1)cccc1C#N
( patrz rysunek ) i COc(cc1)ccc1C#N
( patrz rysunek ), które kodują izomery 3 i 4-cyjanoanizolu. Zapisywanie UŚMIECHU dla podstawionych pierścieni w ten sposób może sprawić, że będą one bardziej czytelne dla człowieka.
Gałęzie można pisać w dowolnej kolejności. Na przykład bromochlorodifluorometan można zapisać jako FC(Br)(Cl)F
, BrC(F)(F)Cl
, C(F)(Cl)(F)Br
lub tym podobne. Ogólnie rzecz biorąc, formularz SMILES jest najłatwiejszy do odczytania, jeśli prostsza gałąź znajduje się na pierwszym miejscu, a ostatnia, pozbawiona nawiasów część jest najbardziej złożona. Jedyne zastrzeżenia do takich przegrupowań to:
- Jeśli numery dzwonków są ponownie używane, są one łączone w pary zgodnie z kolejnością pojawiania się w łańcuchu SMILES. W celu zachowania prawidłowego parowania mogą być wymagane pewne regulacje.
- Jeśli określono stereochemię, należy wprowadzić poprawki; patrz Stereochemia § Uwagi poniżej.
Jedyną formą rozgałęzienia, która nie wymaga nawiasów, są wiązania zamykające pierścień. Odpowiedni dobór wiązań zamykających pierścień może zmniejszyć liczbę wymaganych nawiasów. Na przykład toluen jest zwykle zapisywany jako Cc1ccccc1
lub c1ccccc1C
, unikając nawiasów wymaganych, jeśli jest zapisywany jako c1cc(C)ccc1
lub c1cc(ccc1)C
.
Stereochemia
SMILES zezwala, ale nie wymaga specyfikacji stereoizomerów .
Konfigurację wokół wiązań podwójnych określa się za pomocą znaków /
i \
, aby pokazać kierunkowe wiązania pojedyncze przylegające do wiązania podwójnego. Na przykład F/C=C/F
( patrz ilustracja ) jest reprezentacją trans - 1,2-difluoroetylenu , w którym atomy fluoru znajdują się po przeciwnych stronach wiązania podwójnego (jak pokazano na rysunku), podczas gdy F/ C=C\F
( patrz ilustracja ) jest jedną z możliwych reprezentacji cis -1,2-difluoroetylen, w którym atomy fluoru znajdują się po tej samej stronie wiązania podwójnego.
Symbole kierunku wiązań zawsze występują w grupach po co najmniej dwa, z których pierwszy jest dowolny. Oznacza to, że F\C=C\F
jest tym samym co F/C=C/F
. Gdy obecne są naprzemienne wiązania pojedyncze-podwójne, grupy są większe niż dwa, przy czym środkowe symbole kierunkowe sąsiadują z dwoma wiązaniami podwójnymi. Na przykład powszechna forma (2,4)-heksadienu jest zapisywana jako C/C=C/C=C/C
.
Jako bardziej złożony przykład, beta-karoten ma bardzo długi szkielet składający się z naprzemiennych pojedynczych i podwójnych wiązań, które można zapisać jako CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C (C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
.
Konfiguracja przy czworościennym węglu jest określona przez @
lub @@
. Rozważ cztery wiązania w kolejności, w jakiej się pojawiają, od lewej do prawej, w formie UŚMIECHU. Patrząc w kierunku centralnego węgla z perspektywy pierwszego wiązania, pozostałe trzy są albo zgodne z ruchem wskazówek zegara, albo przeciwnie do ruchu wskazówek zegara. Te przypadki są oznaczone @@
i @
(ponieważ sam symbol @
jest spiralą skierowaną w lewo).
Weźmy na przykład aminokwas alaninę . Jedną z jego form SMILES jest NC(C)C(=O)O
, dokładniej zapisana jako N[CH](C)C(=O)O
. L -Alanina , bardziej powszechny enancjomer , jest zapisywana jako N[C@@H](C)C(=O)O
( patrz ilustracja ). Patrząc od wiązania azot-węgiel, grupy wodoru ( H
), metylu ( C
) i karboksylanu ( C (= O) O ) pojawiają się zgodnie z ruchem wskazówek zegara.
D -Alaninę można zapisać jako N[C@H](C)C(=O)O
( patrz ilustracja ).
Chociaż kolejność, w jakiej gałęzie są określone w SMILES, jest zwykle nieistotna, w tym przypadku ma znaczenie; zamiana dowolnych dwóch grup wymaga odwrócenia wskaźnika chiralności. Jeśli gałęzie są odwrócone, więc alanina jest zapisywana jako NC(C(=O)O)C
, to konfiguracja również się odwraca; L -alanina jest zapisywana jako N[C@H](C(=O)O)C
( patrz ilustracja ). Inne sposoby zapisu to C[C@H](N)C(=O)O
, OC(=O)[C@@H](N)C
i OC(=O)[C@H](C ) N
.
Zwykle pierwsze z czterech wiązań pojawia się na lewo od atomu węgla, ale jeśli UŚMIECH zaczyna się od chiralnego węgla, na przykład C(C)(N)C(=O)O
, to wszystkie cztery prawo, ale pierwsze, które się pojawi ( w tym przypadku wiązanie [CH]
) jest używane jako odniesienie do uporządkowania następujących trzech: L -alanina może być również zapisana [C@@H](C)(N)C( =O)O
.
Specyfikacja SMILES zawiera rozwinięcia symbolu @
w celu wskazania stereochemii wokół bardziej złożonych centrów chiralnych, takich jak trygonalna bipiramidalna geometria molekularna .
izotopy
Izotopy są określane za pomocą liczby równej całkowitej masie izotopowej poprzedzającej symbol atomu. Benzen , w którym jeden atom to węgiel-14, jest zapisany jako [14c]1ccccc1
, a deuterochloroform to [2H]C(Cl)(Cl)Cl
.
Przykłady
Cząsteczka | Struktura | formuła UŚMIECH |
---|---|---|
diazot | N≡N |
N#N
|
Izocyjanian metylu (MIC) | CH 3 −N=C=O |
CN=C=O
|
Siarczan miedzi(II). | Cu 2+ SO 2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-]
|
Wanilina |
O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O
|
|
Melatonina (C 13 H 16 N 2 O 2 ) |
CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12
|
|
Flawopereiryna (C 17 H 15 N 2 ) |
CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
|
|
Nikotyna (C 10 H 14 N 2 ) |
CN1CCC[C@H]1c2cccnc2
|
|
Enantotoksyna (C 17 H 22 O 2 ) |
CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C /C#CC#C/C=C/CO
|
|
Piretryna II (C 22 H 28 O 5 ) |
CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C (=O)OC)C/C=C\C=C
|
|
Aflatoksyna B 1 (C 17 H 12 O 6 ) |
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
|
|
Glukoza (β- D -glukopiranoza) (C 6 H 12 O 6 ) |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
|
|
Bergenina (kuskutyna, żywica ) (C 14 H 16 O 9 ) |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c( O)cc3C(=O)O2
|
|
Feromon owada łuskowatego _ |
CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
|
|
(2 S , 5 R )-Chalcogran: feromon kornika Pityogenes chalcographus |
CC[C@H](O1)CC[C@@]12CCCO2
|
|
α-Tujon (C 10 H 16 O) |
CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
|
|
Tiamina (witamina B 1 , C 12 H 17 N 4 OS + ) |
OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N
|
Aby zilustrować cząsteczkę z więcej niż 9 pierścieniami, rozważmy cefalostatynę-1, steroidową 13-pierścieniową pirazynę o wzorze empirycznym C 54 H 74 N 2 O 10 wyizolowaną z hemichordanu Oceanu Indyjskiego Cephalodiscus gilchristi :
Zaczynając od skrajnej lewej grupy metylowej na rysunku:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3( C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89 (C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10= C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C @@]%13(C)CO
Zwróć uwagę, że %
pojawia się przed indeksem etykiet zamykających kółko powyżej 9; patrz § Pierścienie powyżej.
Inne przykłady UŚMIECHÓW
Notacja SMILES jest obszernie opisana w podręczniku teorii SMILES dostarczonym przez Daylight Chemical Information Systems i przedstawiono szereg ilustrujących przykładów. Narzędzie do przedstawiania Daylight zapewnia użytkownikom środki do sprawdzania własnych przykładów UŚMIECHÓW i jest cennym narzędziem edukacyjnym.
Rozszerzenia
SMARTS to notacja liniowa służąca do określania wzorców podstrukturalnych w cząsteczkach. Chociaż używa wielu takich samych symboli jak SMILES, umożliwia również specyfikację wieloznacznych , których można użyć do zdefiniowania zapytań podstrukturalnych do przeszukiwania chemicznej bazy danych . Jednym z powszechnych nieporozumień jest to, że przeszukiwanie podstrukturalne oparte na SMARTS obejmuje dopasowywanie łańcuchów SMILES i SMARTS. W rzeczywistości zarówno łańcuchy SMILES, jak i SMARTS są najpierw konwertowane na wewnętrzne reprezentacje grafu, które są przeszukiwane pod kątem izomorfizmu podgrafu .
SMIRKS, nadzbiór „reaction SMILES” i podzbiór „reaction SMARTS”, to notacja liniowa służąca do określania przekształceń reakcji. Ogólna składnia rozszerzeń reakcji to REAGENT>AGENT>PRODUKT
(bez spacji), gdzie dowolne pole może pozostać puste lub wypełnione wieloma cząsteczkami oddzielonymi kropką ( .
) i innymi opisami zależnymi od języka bazowego. Atomy można dodatkowo identyfikować za pomocą numeru (np. [C:1]
) w celu mapowania, na przykład w .
SMILES odpowiada dyskretnym strukturom molekularnym. Jednak wiele materiałów to makrocząsteczki, które są zbyt duże (i często stochastyczne), aby w wygodny sposób generować UŚMIECH. BigSMILES jest rozszerzeniem SMILES, którego celem jest zapewnienie wydajnego systemu reprezentacji makrocząsteczek.
Konwersja
SMILES można ponownie przekonwertować na reprezentacje dwuwymiarowe za pomocą algorytmów generowania diagramów strukturalnych (SDG). Ta konwersja nie zawsze jest jednoznaczna. Konwersję do reprezentacji trójwymiarowej uzyskuje się poprzez podejście do minimalizacji energii. Istnieje wiele dostępnych do pobrania i internetowych narzędzi do konwersji.
Zobacz też
- Specyfikacja dowolnego celu SMILES (SMARTS), rozszerzenie SMILES do specyfikacji zapytań podstrukturalnych
- SYBYL Line Notation , inny zapis liniowy
- Międzynarodowy identyfikator chemiczny (InChI), alternatywa IUPAC dla SMILES
- Molecular Query Language , język zapytań pozwalający również na właściwości liczbowe, np. wartości fizykochemiczne lub odległości
- Chemistry Development Kit , układ 2D i oprogramowanie do konwersji
- OpenBabel , JOELib , OELib (konwersja)