Optymalne dopasowanie

Optymalne dopasowanie to metoda analizy sekwencji stosowana w naukach społecznych do oceny odmienności uporządkowanych tablic tokenów, które zwykle reprezentują uporządkowaną w czasie sekwencję stanów społeczno-ekonomicznych, których doświadczyły dwie osoby. Po obliczeniu takich odległości dla zbioru obserwacji (np. osobników w kohorcie ) można zastosować klasyczne narzędzia (takie jak analiza skupień ). Metoda została dostosowana do nauk społecznych z techniki pierwotnie wprowadzonej do badania sekwencji biologii molekularnej (białkowej lub genetycznej) (patrz dopasowanie sekwencji ). Optymalne dopasowanie wykorzystuje algorytm Needlemana-Wunscha .

Algorytm

Niech } stany zbioru możliwych stanów Oznaczmy przestrzeń zbiór wszystkich możliwych sekwencji stanów.

poprzez definiowanie prostych algebr operatorów, operatorów . W najprostszym podejściu stosuje się zestaw składający się tylko z trzech podstawowych operacji przekształcania ciągów:

  • jeden stan w sekwencji
  • jeden stan jest usuwany z sekwencji I
  • stan przez stan za .

Wyobraź sobie teraz, że z każdym operatorem powiązany jest koszt Biorąc pod uwagę dwie sekwencje i , pomysł polega na zmierzeniu { \ displaystyle używając operatorów z algebry. niech będzie sekwencją operatorów taką, że zastosowanie wszystkich operatorów tej sekwencji do pierwszej sekwencji daje drugą sekwencję : gdzie oznacza operator złożony. Do tego zestawu wiążemy koszt
, który reprezentuje całkowity koszt transformacji. W tym należy wziąć pod uwagę, że mogą istnieć różne takie sekwencje się w ; rozsądnym wyborem jest wybranie najtańszego z takich ciągów. W ten sposób nazywamy odległość
, czyli koszt najtańszego zestawu przekształceń, które zamieniają w . Zauważ, że jest z definicji nieujemna, ponieważ jest sumą kosztów dodatnich i trywialnie wtedy i tylko wtedy, gdy , czyli nie ma żadnych kosztów. Funkcja odległości jest symetryczna , jeśli koszty wstawiania i usuwania są ; termin indel zwykle odnosi się do wspólnego kosztu wstawiania i usuwania.

Biorąc pod uwagę zbiór składający się tylko z trzech podstawowych operacji opisanych powyżej, ta miara bliskości spełnia nierówność trójkątną. Przechodniość zależy jednak od definicji zbioru operacji elementarnych.

Krytyka

Chociaż techniki dopasowywania optymalnego są szeroko stosowane w socjologii i demografii, mają one również swoje wady. Jak zauważyło kilku autorów (na przykład LL Wu), głównym problemem w stosowaniu optymalnego dopasowania jest odpowiednie zdefiniowanie kosztów do ( za ja ) {\ .

Oprogramowanie

  • TDA to potężny program, oferujący dostęp do niektórych najnowszych osiągnięć w analizie danych przejściowych.
  • STATA wdrożyła pakiet do przeprowadzania analizy optymalnego dopasowania.
  • TraMineR to pakiet R typu open source do analizy i wizualizacji stanów i sekwencji zdarzeń, w tym analizy optymalnego dopasowania.

Referencje i notatki

  1. ^ A. Abbott i A. Tsay, (2000) Analiza sekwencji i optymalne metody dopasowywania w socjologii: przegląd i perspektywy socjologiczne, metody i badania], tom. 29, 3-33. doi : 10.1177/0049124100029001001
  2. Bibliografia _ (2000) Niektóre komentarze na temat „Analiza sekwencji i optymalne metody dopasowywania w socjologii: przegląd i perspektywa” zarchiwizowane 2006-10-24 w Wayback Machine Sociological Methods & Research, 29 41-64. doi : 10.1177/0049124100029001003