Optymalne dopasowanie
Optymalne dopasowanie to metoda analizy sekwencji stosowana w naukach społecznych do oceny odmienności uporządkowanych tablic tokenów, które zwykle reprezentują uporządkowaną w czasie sekwencję stanów społeczno-ekonomicznych, których doświadczyły dwie osoby. Po obliczeniu takich odległości dla zbioru obserwacji (np. osobników w kohorcie ) można zastosować klasyczne narzędzia (takie jak analiza skupień ). Metoda została dostosowana do nauk społecznych z techniki pierwotnie wprowadzonej do badania sekwencji biologii molekularnej (białkowej lub genetycznej) (patrz dopasowanie sekwencji ). Optymalne dopasowanie wykorzystuje algorytm Needlemana-Wunscha .
Algorytm
Niech } stany zbioru możliwych stanów Oznaczmy przestrzeń zbiór wszystkich możliwych sekwencji stanów.
poprzez definiowanie prostych algebr operatorów, operatorów . W najprostszym podejściu stosuje się zestaw składający się tylko z trzech podstawowych operacji przekształcania ciągów:
- jeden stan w sekwencji
- jeden stan jest usuwany z sekwencji I
- stan przez stan za .
Wyobraź sobie teraz, że z każdym operatorem powiązany jest koszt Biorąc pod uwagę dwie sekwencje i , pomysł polega na zmierzeniu { \ displaystyle używając operatorów z algebry. niech będzie sekwencją operatorów taką, że zastosowanie wszystkich operatorów tej sekwencji do pierwszej sekwencji daje drugą sekwencję : gdzie oznacza operator złożony. Do tego zestawu wiążemy koszt
, który reprezentuje całkowity koszt transformacji. W tym należy wziąć pod uwagę, że mogą istnieć różne takie sekwencje się w ; rozsądnym wyborem jest wybranie najtańszego z takich ciągów. W ten sposób nazywamy odległość
, czyli koszt najtańszego zestawu przekształceń, które zamieniają w . Zauważ, że jest z definicji nieujemna, ponieważ jest sumą kosztów dodatnich i trywialnie wtedy i tylko wtedy, gdy , czyli nie ma żadnych kosztów. Funkcja odległości jest symetryczna , jeśli koszty wstawiania i usuwania są ; termin indel zwykle odnosi się do wspólnego kosztu wstawiania i usuwania.
Biorąc pod uwagę zbiór składający się tylko z trzech podstawowych operacji opisanych powyżej, ta miara bliskości spełnia nierówność trójkątną. Przechodniość zależy jednak od definicji zbioru operacji elementarnych.
Krytyka
Chociaż techniki dopasowywania optymalnego są szeroko stosowane w socjologii i demografii, mają one również swoje wady. Jak zauważyło kilku autorów (na przykład LL Wu), głównym problemem w stosowaniu optymalnego dopasowania jest odpowiednie zdefiniowanie kosztów do ( za ja ) {\ .
Oprogramowanie
- TDA to potężny program, oferujący dostęp do niektórych najnowszych osiągnięć w analizie danych przejściowych.
- STATA wdrożyła pakiet do przeprowadzania analizy optymalnego dopasowania.
- TraMineR to pakiet R typu open source do analizy i wizualizacji stanów i sekwencji zdarzeń, w tym analizy optymalnego dopasowania.
Referencje i notatki
- ^ A. Abbott i A. Tsay, (2000) Analiza sekwencji i optymalne metody dopasowywania w socjologii: przegląd i perspektywy socjologiczne, metody i badania], tom. 29, 3-33. doi : 10.1177/0049124100029001001
- Bibliografia _ (2000) Niektóre komentarze na temat „Analiza sekwencji i optymalne metody dopasowywania w socjologii: przegląd i perspektywa” zarchiwizowane 2006-10-24 w Wayback Machine Sociological Methods & Research, 29 41-64. doi : 10.1177/0049124100029001003