Skład pseudoaminokwasowy
Skład pseudoaminokwasów , czyli PseAAC , w biologii molekularnej , został pierwotnie wprowadzony przez Kuo-Chen Chou w 2001 roku w celu reprezentowania próbek białek w celu poprawy przewidywania lokalizacji subkomórkowej białek i białek błonowych przewidywanie typu. Podobnie jak metoda składu aminokwasów waniliowych (AAC), charakteryzuje ona białko głównie za pomocą macierzy częstotliwości aminokwasów, co pomaga w radzeniu sobie z białkami bez znaczącej homologii sekwencyjnej z innymi białkami. W porównaniu z AAC, matryca zawiera również dodatkowe informacje, które reprezentują pewne cechy lokalne, takie jak korelacja między resztami w określonej odległości. Przy rozpatrywaniu przypadków PseAAC często używano twierdzenia Chou o niezmienności.
Tło
Aby przewidzieć subkomórkową lokalizację białek i inne cechy na podstawie ich sekwencji, na ogół stosuje się dwa rodzaje modeli do reprezentowania próbek białek: (1) model sekwencyjny i (2) model niesekwencyjny lub model dyskretny.
Najbardziej typową reprezentacją sekwencyjną próbki białka jest cała sekwencja aminokwasów (AA), która może zawierać najpełniejsze informacje. Jest to oczywista zaleta modelu sekwencyjnego. Aby uzyskać pożądane wyniki, do przewidywania zwykle wykorzystuje się narzędzia oparte na wyszukiwaniu podobieństwa sekwencji.
Biorąc pod uwagę sekwencję białka P z resztami aminokwasowymi, tj.
gdzie R1 oznacza pierwszą resztę białka P , R2 drugą resztę i tak dalej. To jest reprezentacja białka w modelu sekwencyjnym.
Jednakże tego rodzaju podejście zawodzi, gdy badane białko nie wykazuje znaczącej homologii ze znanym białkiem(ami). W związku z tym zaproponowano różne modele dyskretne, które nie opierają się na kolejności sekwencji. Najprostszy model dyskretny wykorzystuje skład aminokwasów (AAC) do reprezentowania próbek białek. W modelu AAC białko P z równania 1 można również wyrazić wzorem
gdzie to znormalizowane częstotliwości występowania 20 natywnych aminokwasów w P i T operator transpozycji. AAC białka oblicza się w prosty sposób z pierwotnej struktury białka znanej jak podano w równaniu 1 ; jest to również możliwe poprzez hydrolizę, nie znając dokładnej kolejności, a taki etap w rzeczywistości jest często wykonywany warunek wstępny sekwencjonowania białek .
Ze względu na swoją prostotę model składu aminokwasów (AAC) był szeroko stosowany w wielu wcześniejszych metodach statystycznych do przewidywania cech białek. Jednakże wszystkie informacje o kolejności sekwencji zostaną utracone. To jest jego główna wada.
Pojęcie
uniknąć całkowitej utraty informacji o kolejności sekwencji, zaproponowano koncepcję PseAAC ( pse udo a mino acid composition ). W przeciwieństwie do konwencjonalnego składu aminokwasów (AAC), który zawiera 20 składników, z których każdy odzwierciedla częstotliwość występowania jednego z 20 natywnych aminokwasów w białku, PseAAC zawiera zestaw ponad 20 odrębnych czynników, gdzie pierwszych 20 reprezentuje składniki jego konwencjonalnego składu aminokwasów , podczas gdy dodatkowe czynniki zawierają pewne informacje o kolejności sekwencji za pośrednictwem różnych pseudoskładników.
Dodatkowe czynniki to seria czynników korelacji o różnej randze wzdłuż łańcucha białkowego, ale mogą to być także dowolne kombinacje innych czynników, o ile mogą odzwierciedlać pewien rodzaj efektów kolejności sekwencji w taki czy inny sposób. Dlatego istotą PseAAC jest to, że z jednej strony obejmuje kompozycję AA, ale z drugiej strony zawiera informacje wykraczające poza skład AA, a zatem może lepiej odzwierciedlać cechę sekwencji białka poprzez dyskretny model.
W międzyczasie opracowano również różne tryby formułowania wektora PseAAC, jak podsumowano w artykule przeglądowym z 2009 roku.
Algorytm
Zgodnie z modelem PseAAC, białko P z równania 1 można sformułować jako
) składniki są podane przez (
gdzie współczynnikiem wagi i -tego poziomu, odzwierciedla korelację kolejności sekwencji między wszystkimi -th najbardziej sąsiadujące reszty, jak sformułowano przez
z
gdzie jest -tą aminokwasu i funkcji Na przykład w oryginalnej pracy Chou, , i to odpowiednio wartość hydrofobowości, wartość hydrofilowości i masa łańcucha bocznego aminokwasu ; podczas gdy , i odpowiednie wartości aminokwasu . Dlatego całkowita liczba rozważanych tam funkcji wynosi } Można to zobaczyć na podstawie równania 3 że pierwsze gdy pozostałe pierwszy poziom, drugi poziom… i wzorce korelacji kolejności sekwencji -tego poziomu ( Figura 1 ). To dzięki tym dodatkowym uwzględniane są niektóre ważne efekty kolejności
w równaniu 3 parametrem liczby całkowitej i wybranie innej liczby całkowitej dla do kompozycji PseAA o innym
Użycie równania 6 to tylko jeden z wielu sposobów wyprowadzania współczynników korelacji w PseAAC lub jego składnikach. Inne, takie jak tryb odległości fizykochemicznej i tryb wzoru amfifilowego, można również wykorzystać do uzyskania różnych typów PseAAC, jak podsumowano w artykule przeglądowym z 2009 roku. W 2011 roku sformułowanie PseAAC ( Równanie 3 ) zostało rozszerzone do postaci ogólnej PseAAC określonej wzorem:
gdzie indeks liczbą całkowitą, jej wartością i składnikami będzie zależeć od sposobu wyodrębnienia żądanej informacji z sekwencji aminokwasów P w równaniu 1 .
Ogólny PseAAC można zastosować do odzwierciedlenia dowolnych pożądanych cech zgodnie z celami badań, w tym podstawowych cech, takich jak domena funkcjonalna, ewolucja sekwencyjna i ontologia genów w celu poprawy jakości przewidywania lokalizacji białek w komórkach. jak również wiele innych ważnych atrybutów.