Ilościowa lingwistyka porównawcza
Ilościowa lingwistyka porównawcza to wykorzystanie analizy ilościowej w zastosowaniu do lingwistyki porównawczej . Przykłady obejmują dziedziny statystyczne leksykostatystyki i glottochronologii oraz zapożyczenia filogenetyki z biologii.
Historia
Metody statystyczne są wykorzystywane do celów analizy ilościowej w językoznawstwie porównawczym od ponad wieku. W latach pięćdziesiątych XX wieku lista Swadesh : znormalizowany zestaw pojęć leksykalnych występujących w większości języków, jako słowa lub frazy, który umożliwia empiryczne porównanie i przeciwstawienie dwóch lub więcej języków.
Prawdopodobnie pierwsze opublikowane ilościowe badanie lingwistyki historycznej zostało opublikowane przez Sapira w 1916 r., Podczas gdy Kroeber i Chretien w 1937 r. Badali dziewięć języków indoeuropejskich (IE) przy użyciu 74 cech morfologicznych i fonologicznych (rozszerzonych w 1939 r. Przez włączenie hetyckiego). Ross w 1950 roku przeprowadził dochodzenie w sprawie teoretycznych podstaw takich badań. Swadesh, używając list słów, rozwinął leksykostatystykę i glottochronologię w serii artykułów opublikowanych na początku lat pięćdziesiątych, ale metody te były szeroko krytykowane, chociaż inni badacze postrzegali niektóre z nich jako nieuzasadnione. Embleton opublikował w 1986 roku książkę „Statistics in Historical Linguistics”, w której dokonał przeglądu wcześniejszych prac i rozszerzył metodę glottochronologiczną. Dyen, Kruskal i Black przeprowadzili badanie metody leksykostatystycznej na dużej bazie danych IE w 1992 roku.
W latach 90. ponownie zainteresowano się tym tematem, opierając się na zastosowaniu metod filogenetyki obliczeniowej i kladystyki . Takie projekty często wymagały współpracy lingwistów i kolegów z doświadczeniem w dziedzinie informatyki i/lub antropologii biologicznej . Projekty te często dążyły do uzyskania optymalnego drzewa filogenetycznego (lub sieć), aby przedstawić hipotezę dotyczącą ewolucyjnego pochodzenia i być może jego kontaktów językowych. Pionierami tych metod byli założyciele CPHL: filogenetyka obliczeniowa w językoznawstwie historycznym (projekt CPHL): Donald Ringe , Tandy Warnow , Luay Nakhleh i Steven N. Evans .
W połowie lat 90. grupa z Pennsylvania University skomputeryzowała metodę porównawczą i wykorzystała inną bazę danych IE zawierającą 20 starożytnych języków. W dziedzinie biologii opracowano następnie kilka programów komputerowych, które mogłyby znaleźć zastosowanie w językoznawstwie historycznym. W szczególności grupa z University of Auckland opracowała metodę, która dała kontrowersyjnie stare daty dla języków IE. W sierpniu 1999 r. odbyła się konferencja „Głębia czasowa w językoznawstwie historycznym”, na której omówiono wiele zastosowań metod ilościowych. Następnie opublikowano wiele prac dotyczących badań różnych grup językowych oraz porównań metod.
Większe zainteresowanie mediów wzbudziło w 2003 roku po opublikowaniu przez antropologów Russella Graya i Quentina Atkinsona krótkiego studium na temat języków indoeuropejskich w Nature . Gray i Atkinson próbowali określić ilościowo, w sensie probabilistycznym, wiek i pokrewieństwo współczesnych języków indoeuropejskich, a czasem poprzedzających je prajęzyków.
Materiały z wpływowej konferencji z 2004 roku, Metody filogenetyczne i prehistoria języków zostały opublikowane w 2006 roku pod redakcją Petera Forstera i Colina Renfrew .
Studiował rodziny językowe
Obliczeniowe analizy filogenetyczne przeprowadzono dla:
- Języki indoeuropejskie : Bouckaert (2012)
- Języki uralskie : Honkola (2013)
- Języki tureckie : Hruschka (2014)
- Języki drawidyjskie : Kolipakam (2018)
- Języki austroazjatyckie : Sidwell (2015)
- Języki austronezyjskie : szary (2009)
- Języki Pama-Nyungan : Bowern & Atkinson (2012), Bouckaert, Bowern i Atkinson (2018)
- Języki bantu : Currie (2013), Grollemund (2015)
- Języki semickie : Kuchnia (2009)
- Języki dene-jenisejskie : Sicoli i Holton (2014)
- Języki uto-azteckie : Wheeler i Whiteley (2014)
- Języki Majów : Atkinson (2006)
- Języki arawakańskie : Walker i Ribeiro (2011)
- Języki tupi-guarani : Michael (2015)
- Języki chińsko-tybetańskie : Zhang i in. (2019), Sagart i in. (2019)
Tło
Standardową metodą oceny relacji językowych była metoda porównawcza . Ma to jednak szereg ograniczeń. Nie wszystkie materiały językowe nadają się jako dane wejściowe i istnieją kwestie dotyczące poziomów językowych, na których działa metoda. Zrekonstruowane języki są wyidealizowane, a różni uczeni mogą uzyskać różne wyniki. Drzewa genealogiczne języków są często używane w połączeniu z metodą, a „zapożyczenia” muszą być wykluczone z danych, co jest trudne, gdy zapożyczenia dotyczą rodziny. Często twierdzi się, że metoda jest ograniczona głębokością czasową, w której może działać. Metoda jest trudna do zastosowania i nie ma niezależnego testu. Dlatego poszukiwano alternatywnych metod, które mają sformalizowaną metodę, określają ilościowo zależności i mogą być testowane.
Celem porównawczej językoznawstwa historycznego jest identyfikacja przypadków pokrewieństwa genetycznego między językami. Etapy analizy ilościowej to (i) opracowanie procedury opartej na podstawach teoretycznych, na konkretnym modelu lub na przeszłych doświadczeniach itp. (ii) zweryfikowanie procedury poprzez zastosowanie jej do pewnych danych, w których istnieje duży zbiór danych lingwistycznych opinię do porównania (może to doprowadzić do rewizji procedury na etapie (i) lub w skrajnych przypadkach do jej całkowitego porzucenia) (iii) zastosowanie procedury do danych, w przypadku których opinie językowe nie zostały jeszcze opracowane, nie zostały jeszcze stanowczo ustalone, a może nawet pozostają w konflikcie.
Stosowanie metod filogenetycznych do języków jest procesem wieloetapowym: (a) etap kodowania – przejście od rzeczywistych języków do pewnego wyrażenia relacji między nimi w postaci danych liczbowych lub stanowych, tak aby dane te mogły być następnie wykorzystane jako dane wejściowe do metod filogenetycznych (b) etap reprezentacji - zastosowanie metod filogenetycznych do wydobycia z tych danych liczbowych i/lub stanu sygnału, który jest przekształcany w jakąś użyteczną formę reprezentacji, zwykle dwuwymiarową graficzną, taką jak drzewa lub sieci, które syntetyzują i „ upadek”, które często są bardzo złożonymi, wielowymiarowymi relacjami w sygnale (c) etap interpretacji – ocena tych reprezentacji drzewiastych i sieciowych w celu wydobycia z nich tego, co faktycznie oznaczają dla rzeczywistych języków i ich relacji w czasie.
Rodzaje drzew i sieci
Wynikiem ilościowej analizy historyczno-językowej jest zwykle drzewo lub diagram sieciowy. Pozwala to na zbiorczą wizualizację danych wyjściowych, ale nie jest pełnym wynikiem. Drzewo jest połączonym grafem acyklicznym, składającym się z zestawu wierzchołków (znanych również jako „węzły”) i zestawu krawędzi („gałęzi”), z których każdy łączy parę wierzchołków. Węzeł wewnętrzny reprezentuje językowego przodka w drzewie filogenetycznym lub sieci. Każdy język jest reprezentowany przez ścieżkę, która pokazuje różne stany w miarę jego ewolucji. Między każdą parą wierzchołków jest tylko jedna ścieżka. Drzewa nieukorzenione wykreślają związek między danymi wejściowymi bez założeń dotyczących ich pochodzenia. Zakorzenione drzewo wyraźnie identyfikuje wspólnego przodka, często określając kierunek ewolucji lub włączając „grupę zewnętrzną”, o której wiadomo, że jest tylko daleko spokrewniona z zestawem klasyfikowanych języków. Większość drzew jest binarna, to znaczy, że rodzic ma dwoje dzieci. Drzewo zawsze można wyprodukować, chociaż nie zawsze jest to właściwe. Innym rodzajem drzewa jest to, które opiera się wyłącznie na podobieństwach/różnicach językowych. W tym przypadku wewnętrzne węzły wykresu nie reprezentują przodków, ale są wprowadzane w celu przedstawienia konfliktu między różnymi podziałami („dwupartycjami”) w analizie danych. „Odległość fenetyczna” to suma wag (często przedstawianych jako długości) wzdłuż ścieżki między językami. Czasami przyjmuje się dodatkowe założenie, że te wewnętrzne węzły rzeczywiście reprezentują przodków.
Kiedy języki są zbieżne, zwykle poprzez adopcję słów („pożyczanie”), bardziej odpowiedni jest model sieciowy. Pojawią się dodatkowe krawędzie odzwierciedlające podwójne pochodzenie języka. Krawędzie te będą dwukierunkowe, jeśli oba języki pożyczą od siebie. Drzewo jest zatem prostą siecią, jednak istnieje wiele innych typów sieci. Sieć filogenetyczna to taka, w której taksony są reprezentowane przez węzły, a ich relacje ewolucyjne są reprezentowane przez gałęzie. Innym typem jest ten oparty na podziałach i jest kombinatorycznym uogólnieniem podzielonego drzewa. Dany zestaw podziałów może mieć więcej niż jedną reprezentację, dlatego węzły wewnętrzne mogą nie być przodkami i są jedynie „ukrytą” reprezentacją historii ewolucji, w odróżnieniu od „jawnej” reprezentacji sieci filogenetycznych. W sieci podzielonej odległość frenetyczna jest odległością najkrótszej ścieżki między dwoma językami. Kolejnym typem jest sieć siatkowata, która wykazuje niezgodności (na przykład z powodu kontaktu), ponieważ siatki i jej wewnętrzne węzły reprezentują przodków. Sieć można również zbudować, dodając krawędzie kontaktowe do drzewa. Ostatnim głównym typem jest sieć konsensusu utworzona z drzew. Drzewa te mogą być wynikiem analizy bootstrap lub próbek z późniejszej dystrybucji.
Zmiana języka
Zmiany zachodzą w językach nieustannie, ale zwykle nie w stałym tempie, a ich skumulowany efekt powoduje podziały na dialekty, języki i rodziny językowe. Powszechnie uważa się, że morfologia zmienia się najwolniej, a fonologia najszybciej. W miarę jak zachodzą zmiany, pozostaje coraz mniej dowodów na istnienie oryginalnego języka. Wreszcie może dojść do utraty jakichkolwiek dowodów pokrewieństwa. Zmiany jednego rodzaju mogą nie wpływać na inne typy, na przykład zmiany dźwięku nie wpływają na rozpoznawanie. W przeciwieństwie do biologii nie można zakładać, że wszystkie języki mają wspólne pochodzenie i konieczne jest ustalenie pokrewieństwa. W modelowaniu często dla uproszczenia zakłada się, że postacie zmieniają się niezależnie, ale może tak nie być. Oprócz zapożyczeń mogą wystąpić również przesunięcia semantyczne i polimorfizm.
Dane wejściowe analizy
Dane
Analizę można przeprowadzić na „charakterach” języków lub na „odległościach” języków. W pierwszym przypadku dane wejściowe do klasyfikacji językowej mają zazwyczaj postać macierzy danych, w której wiersze odpowiadają różnym analizowanym językom, a kolumny odpowiadają różnym cechom lub znakom, za pomocą których można opisać każdy język. Cechy te są dwojakiego rodzaju pokrewne lub dane typologiczne. Znaki mogą przybierać jedną lub więcej form (homoplazja) i mogą być leksykalne, morfologiczne lub fonologiczne. Pokrewne to morfemy (leksykalne lub gramatyczne) lub większe konstrukcje. Znaki typologiczne mogą pochodzić z dowolnej części gramatyki lub leksykonu. Jeżeli w danych występują luki, należy je zakodować.
Oprócz oryginalnej bazy danych (nieekranowanych), w wielu badaniach tworzone są podzbiory do określonych celów (dane ekranowane).
W leksykostatystyce cechami są znaczenia słów, a raczej szczeliny semantyczne. Zatem wpisy matrycy są serią glos. Zgodnie z pierwotnym planem Swadesha należało wybrać jedno najczęstsze słowo określające automat, co może być trudne i subiektywne z powodu przesunięcia semantycznego. Późniejsze metody mogą pozwolić na włączenie więcej niż jednego znaczenia.
Ograniczenia
Niektóre metody pozwalają na nałożenie ograniczeń na geografię kontaktów językowych (izolację ze względu na odległość) oraz na czasy podziału podgrup.
Bazy danych
Swadesh pierwotnie opublikował listę 200 słów, ale później udoskonalił ją do 100 słów. Powszechnie używaną bazą danych IE jest baza Dyen, Kruskal i Black, która zawiera dane dla 95 języków, chociaż wiadomo, że oryginał zawiera kilka błędów. Oprócz surowych danych zawiera także oceny cognacy. Jest to dostępne w Internecie. Baza danych Ringe, Warnow i Taylor zawiera informacje o 24 językach IE, z 22 znakami fonologicznymi, 15 znakami morfologicznymi i 333 znakami leksykalnymi. Gray i Atkinson wykorzystali bazę danych obejmującą 87 języków z 2449 pozycjami leksykalnymi, opartą na zbiorze Dyen z dodatkiem trzech starożytnych języków. Włączyli oceny cognacy wielu uczonych. Utworzono inne bazy danych, między innymi dla rodzin języków afrykańskich, australijskich i andyjskich.
Kodowanie danych może mieć postać binarną lub wielostanową. Ten pierwszy jest często używany, ale powoduje stronniczość. Twierdzono, że istnieje stały współczynnik skali między dwiema metodami kodowania i że można to uwzględnić. Jednak inne badanie sugeruje, że topologia może się zmienić
Listy słów
Automaty na słowa są tak dobrane, aby były jak najbardziej wolne od kultury i zapożyczeń. Oryginalne listy Swadesh są najczęściej używane, ale wiele innych zostało opracowanych do określonych celów. Często są one krótsze niż preferowana przez Swadesha lista 100 pozycji. Kessler napisał książkę „The Significance of Word Lists”, podczas gdy McMahon i McMahon prowadzili badania nad skutkami rekonstrukcji i retencji. Zbadano wpływ zwiększenia liczby slotów i znaleziono prawo malejących zwrotów, przy czym około 80 to uznano za zadowalające, jednak w niektórych badaniach wykorzystano mniej niż połowę tej liczby.
Zasadniczo każdy pokrewny zestaw jest reprezentowany jako inny znak, ale różnice między słowami można również mierzyć jako pomiar odległości za pomocą zmian dźwięku. Odległości można również mierzyć litera po literze.
Cechy morfologiczne
Tradycyjnie były one postrzegane jako ważniejsze niż te leksykalne, dlatego niektóre badania kładą dodatkową wagę na tego typu znaki. Takie cechy zostały uwzględnione na przykład w bazie danych Ringe, Warnow i Taylor IE. Jednak inne badania je pominęły.
Cechy typologiczne
Przykłady tych cech obejmują stałe glottalizowane, systemy tonów, wyrównanie biernika w rzeczownikach, liczbę podwójną, zgodność numeru przypadku, kolejność dopełnienie-czasownik i zaimki pierwszej osoby liczby pojedynczej. Zostaną one wymienione w bazie danych WALS, chociaż w przypadku wielu języków ta baza danych jest jeszcze słabo zapełniona.
Modele probabilistyczne
Niektóre metody analizy obejmują statystyczny model ewolucji języka i wykorzystują właściwości modelu do oszacowania historii ewolucji. Modele statystyczne są również wykorzystywane do symulacji danych do celów testowych. Do opisania ewolucji zestawu znaków w języku można zastosować proces stochastyczny. Prawdopodobieństwo, z jakim postać się zmieni, może zależeć od gałęzi, ale nie wszystkie postacie ewoluują razem, a tempo nie jest identyczne we wszystkich gałęziach. Często zakłada się, że każda postać ewoluuje niezależnie, ale nie zawsze tak jest. W ramach modelu można również modelować zapożyczanie i rozwój równoległy (homoplazję), a także polimorfizmy.
Skutki przypadku
Przypadkowe podobieństwa wytwarzają pewien poziom szumu, względem którego należy znaleźć wymagany sygnał pokrewieństwa. Ringe przeprowadził badanie wpływu przypadku na porównywania mas . To pokazało, że przypadkowe podobieństwa były krytyczne dla tej techniki i że wniosków Greenberga nie można uzasadnić, chociaż procedura matematyczna zastosowana przez Rimge została później skrytykowana.
W przypadku małych baz danych błędy próbkowania mogą być istotne.
W niektórych przypadkach przy dużej bazie danych i wyczerpującym przeszukiwaniu wszystkich możliwych drzew lub sieci nie jest to możliwe ze względu na ograniczenia czasowe. Istnieje więc prawdopodobieństwo, że heurystycznym metodom przeszukiwania przestrzeni rozwiązań nie uda się znaleźć optymalnego rozwiązania.
Wykrywanie zapożyczeń
Zapożyczenia mogą poważnie wpłynąć na topologię drzewa, dlatego podejmuje się wysiłki, aby wykluczyć zapożyczenia. Jednak niewykryte czasami nadal istnieją. McMahon i McMahon wykazali, że około 5% pożyczek może wpływać na topologię, podczas gdy 10% ma znaczące skutki. W sieciach pożyczanie powoduje siatkę. Minett i Wang zbadali sposoby automatycznego wykrywania zaciągania pożyczek.
Podział randki
Datowanie podziałów językowych można określić, jeśli wiadomo, jak postacie ewoluują wzdłuż każdej gałęzi drzewa. Najprostszym założeniem jest to, że wszystkie postacie ewoluują w jednym stałym tempie w czasie i że jest to niezależne od gałęzi drzewa. Takie było założenie przyjęte w glottochronologii. Jednak wkrótce badania wykazały, że istniały różnice między językami, niektóre prawdopodobnie spowodowane obecnością nierozpoznanych zapożyczeń. Lepszym podejściem jest zezwolenie na zmienność szybkości, a rozkład gamma jest zwykle używany ze względu na jego matematyczną wygodę. Przeprowadzono również badania, z których wynika, że tempo wymiany postaci zależy od częstotliwości używania. Powszechne zapożyczanie może wpływać na szacunki czasu rozbieżności, sprawiając, że języki wydają się bardziej podobne, a tym samym młodsze. Jednak powoduje to również, że długość gałęzi przodka jest dłuższa, dzięki czemu korzeń pozostaje nienaruszony.
Ten aspekt jest najbardziej kontrowersyjną częścią ilościowej lingwistyki porównawczej.
Rodzaje analiz
Istnieje potrzeba zrozumienia, jak działa metoda klasyfikacji języków, aby określić jej założenia i ograniczenia. Może być ważny tylko pod pewnymi warunkami lub być odpowiedni dla małych baz danych. Metody różnią się wymaganiami dotyczącymi danych, złożonością i czasem działania. Metody różnią się także kryteriami optymalizacji.
Modele oparte na postaciach
Maksymalna oszczędność i maksymalna kompatybilność
Te dwie metody są podobne, ale celem metody maksymalnej oszczędności jest znalezienie drzewa (lub sieci), w którym występuje minimalna liczba zmian ewolucyjnych. W niektórych implementacjach znakom można nadać wagi, a wtedy celem jest zminimalizowanie całkowitej ważonej sumy zmian. Analiza tworzy nieukorzenione drzewa, chyba że użyto lub wyreżyserowano grupę zewnętrzną. Heurystyka służy do znalezienia najlepszego drzewa, ale optymalizacja nie jest gwarantowana. Metoda często jest realizowana za pomocą programów PAUP lub TNT.
Maksymalna kompatybilność również wykorzystuje postacie, mając na celu znalezienie drzewa, w którym ewoluuje maksymalna liczba postaci bez homoplazji. Ponownie postacie mogą być ważone, a kiedy to nastąpi, celem jest maksymalizacja sumy wag zgodnych znaków. Produkuje również nieukorzenione drzewa, chyba że zostaną uwzględnione dodatkowe informacje. Nie ma łatwo dostępnych heurystyk, które byłyby dokładne w przypadku dużych baz danych. Ta metoda była używana tylko przez grupę Ringe'a.
W tych dwóch metodach często znajduje się kilka drzew z tym samym wynikiem, więc zwykłą praktyką jest znalezienie drzewa konsensusu za pomocą algorytmu. Konsensus większościowy ma bipartycje w ponad połowie drzew wejściowych, podczas gdy zachłanny konsensus dodaje bipartycje do drzewa większościowego. Ścisłe drzewo konsensusu jest najmniej rozdzielone i zawiera te podziały, które występują w każdym drzewie.
Bootstrapping (strategia ponownego próbkowania statystycznego) służy do dostarczania wartości wsparcia gałęzi. Technika ta polega na losowym wybieraniu znaków z wejściowej macierzy danych, a następnie przeprowadzaniu tej samej analizy. Wartość wsparcia to ułamek przebiegów z tym dwupodziałem w obserwowanym drzewie. Jednak ładowanie jest bardzo czasochłonne.
Maksymalne prawdopodobieństwo i analiza bayesowska
Obie te metody wykorzystują jawne modele ewolucji. Metoda największej wiarygodności optymalizuje prawdopodobieństwo uzyskania obserwowanych danych, podczas gdy analiza bayesowska szacuje prawdopodobieństwo każdego drzewa iw ten sposób tworzy rozkład prawdopodobieństwa. Dokonywany jest losowy spacer przez „przestrzeń modelu-drzewa”. Oba wymagają nieokreślonego czasu, a zatrzymanie może być arbitralne, więc decyzja jest problemem. Jednak oba generują informacje pomocnicze dla każdej gałęzi.
Założenia tych metod są jawne i weryfikowalne. W razie potrzeby złożoność modelu można zwiększyć. Parametry modelu są estymowane bezpośrednio na podstawie danych wejściowych, dzięki czemu unika się założeń dotyczących tempa ewolucji.
Doskonałe sieci filogenetyczne
Ta metoda tworzy wyraźną sieć filogenetyczną mającą leżące u podstaw drzewo z dodatkowymi krawędziami kontaktowymi. Postacie można wypożyczać, ale ewoluować bez homoplazji. Do wytworzenia takich sieci zastosowano algorytm oparty na teorii grafów.
Metoda Graya i Atkinsona
Wejściowe dane leksykalne są kodowane w postaci binarnej, z jednym znakiem dla każdego stanu oryginalnego znaku wielostanowego. Metoda pozwala na homoplazę i ograniczenia czasów podziału. Stosowana jest metoda analizy oparta na prawdopodobieństwie, z ewolucją wyrażoną jako macierz współczynnika. Pokrewne zyski i straty są modelowane za pomocą rozkładu gamma, aby umożliwić zmianę szybkości i wygładzanie szybkości. Ze względu na ogromną liczbę możliwych drzew z wieloma językami, do poszukiwania optymalnego drzewa używa się wnioskowania bayesowskiego. Algorytm Monte Carlo łańcucha Markowa generuje próbkę drzew jako przybliżenie późniejszego rozkładu prawdopodobieństwa. Podsumowanie tego rozkładu można przedstawić jako zachłanne drzewo konsensusu lub sieć z wartościami wsparcia. Metoda zapewnia również oszacowania dat.
Metoda jest dokładna, gdy oryginalne postacie są binarne i ewoluują identycznie i niezależnie od siebie w modelu stawek w różnych witrynach z rozkładem współczynników gamma; daty są dokładne, gdy tempo zmian jest stałe. Zrozumienie wydajności metody, gdy oryginalne znaki są wielostanowe, jest bardziej skomplikowane, ponieważ kodowanie binarne tworzy znaki, które nie są niezależne, podczas gdy metoda zakłada niezależność.
Metoda Nichollsa i Graya
Ta metoda jest następstwem metody Graya i Atkinsona. Zamiast mieć dwa parametry dla znaku, ta metoda wykorzystuje trzy. Określa się wskaźnik urodzeń, wskaźnik zgonów pokrewnego oraz jego stopę procentową. Współczynnik urodzeń jest zmienną losową Poissona z pojedynczym narodzinami pokrewnej klasy, ale dozwolone są oddzielne zgony gałęzi (oszczędność Dollo). Metoda nie dopuszcza homoplazji, ale dopuszcza polimorfizm i ograniczenia. Jego głównym problemem jest to, że nie może obsłużyć brakujących danych (problem ten został już rozwiązany przez Rydera i Nichollsa. Techniki statystyczne służą do dopasowania modelu do danych. Można uwzględnić wcześniejsze informacje i przeprowadzić badanie MCMC możliwych rekonstrukcji. metoda została zastosowana do bazy danych Graya i Nichola i wydaje się dawać podobne wyniki.
Modele oparte na odległości
Wykorzystują one trójkątną macierz porównań językowych parami. Macierz znaków wejściowych jest używana do obliczania macierzy odległości przy użyciu odległości Hamminga lub odległości Levenshteina . Ta pierwsza mierzy proporcję pasujących znaków, podczas gdy druga pozwala uwzględnić koszty różnych możliwych transformacji. Metody te są szybkie w porównaniu z metodami opartymi całkowicie na postaciach. Jednak metody te powodują utratę informacji.
UPGMA
„Metoda grup nieważonych parami ze średnią arytmetyczną” ( UPGMA ) to technika grupowania, która polega na wielokrotnym łączeniu dwóch języków, które mają najmniejszą odległość między sobą. Działa dokładnie z ewolucją podobną do zegara, ale poza tym może być błędny. Jest to metoda stosowana w oryginalnej leksykostatystyce Swadesha.
Podział rozkładu
Jest to technika dzielenia danych na naturalne grupy. Dane mogą być znakami, ale częściej są to miary odległości. Liczba znaków lub odległości są używane do generowania podziałów i obliczania wag (długości gałęzi) dla podziałów. Ważone podziały są następnie reprezentowane w drzewie lub sieci w oparciu o minimalizację liczby zmian między każdą parą taksonów. Istnieją szybkie algorytmy generowania kolekcji podziałów. Wagi są określane na podstawie odległości między taksonami. Dekompozycja rozdzielona jest efektywna, gdy liczba taksonów jest niewielka lub gdy sygnał nie jest zbyt skomplikowany.
Sąsiad dołącza
Ta metoda działa na danych odległości, oblicza transformację macierzy wejściowej, a następnie oblicza minimalną odległość par języków. Działa poprawnie, nawet jeśli języki nie ewoluują wraz z zegarem leksykalnym. Można również zastosować ważoną wersję metody. Metoda tworzy drzewo wyjściowe. Uważa się, że jest to metoda najbliższa ręcznym technikom budowy drzew.
Sieć sąsiedztwa
Wykorzystuje podobny algorytm do łączenia sąsiadów. W przeciwieństwie do Split Decomposition nie łączy węzłów natychmiast, ale czeka, aż węzeł zostanie sparowany po raz drugi. Węzły drzewa są następnie zastępowane przez dwa, a macierz odległości jest zmniejszana. Może obsługiwać duże i skomplikowane zbiory danych. Jednak wynik jest raczej fenogramem niż filogramem. Jest to najpopularniejsza metoda sieciowa.
Sieć
Była to wczesna metoda sieciowa, która została wykorzystana do niektórych analiz językowych. Pierwotnie został opracowany dla sekwencji genetycznych o więcej niż jednym możliwym pochodzeniu. Sieć zwija alternatywne drzewa w jedną sieć. Tam, gdzie istnieje wiele historii, rysowana jest siatka (kształt pudełka). Generuje listę znaków niekompatybilnych z drzewem.
ŻMIJA
Wykorzystuje to deklaratywny formalizm reprezentacji wiedzy i metody programowania zestawów odpowiedzi. Jednym z takich solwerów jest CMODELS, który może być używany do małych problemów, ale większe wymagają heurystyki. Przetwarzanie wstępne służy do określenia znaków informacyjnych. CMODELS przekształca je w teorię zdań, która wykorzystuje solver SAT do obliczania modeli tej teorii.
Fitch/Kitch
Fitch i Kitch to programy oparte na maksymalnym prawdopodobieństwie w PHYLIP, które pozwalają na zmianę układu drzewa po każdym dodaniu, w przeciwieństwie do NJ. Kitch różni się od Fitch tym, że zakłada stałą stopę zmian w całym drzewie, podczas gdy Fitch dopuszcza różne stopy w każdej gałęzi.
Metoda poziomu separacji
Holm wprowadził metodę w 2000 roku, aby poradzić sobie z niektórymi znanymi problemami analizy leksykostastycznej. Są to „pułapka symplezjomorfii", w której wspólne archaizmy są trudne do odróżnienia od wspólnych innowacji, oraz „pułapka proporcjonalności", gdy późniejsze zmiany mogą przesłonić wcześniejsze. Później wprowadził wyrafinowaną metodę, zwaną SLD, aby uwzględnić zmienną rozkład słów w różnych językach Metoda nie zakłada stałego tempa zmian.
Metody szybkiej konwergencji
Opracowano szereg szybkich zbieżnych metod analizy do użytku z dużymi bazami danych (> 200 języków). Jedną z nich jest metoda pokrywania dysku (DCM). Zostało to połączone z istniejącymi metodami, aby zapewnić lepszą wydajność. Artykuł na temat metody DCM-NJ+MP jest podany przez tych samych autorów w „The performance of Phylogenetic Methods on Trees of Bounded Diameter”, [ potrzebne pełne cytowanie ] , gdzie porównuje się ją z metodą NJ.
Modele oparte na podobieństwach
Modele te porównują raczej litery słów niż ich fonetykę. Dunn i in. przestudiował 125 znaków typologicznych w 16 językach austronezyjskich i 15 papuaskich. Porównali swoje wyniki z drzewem MP i drzewem skonstruowanym za pomocą tradycyjnej analizy. Stwierdzono istotne różnice. Podobnie Wichmann i Saunders używali 96 znaków do nauki 63 języków amerykańskich.
Skomputeryzowane porównanie masy
Metodą, która została zaproponowana do wstępnej inspekcji zestawu języków w celu sprawdzenia, czy są one spokrewnione, było porównanie masowe . Zostało to jednak ostro skrytykowane i wyszło z użycia. Niedawno Kessler wskrzesił skomputeryzowaną wersję metody, ale stosując rygorystyczne testowanie hipotez. Celem jest wykorzystanie podobieństw w więcej niż dwóch językach jednocześnie. W innej pracy oceniane są różne kryteria porównywania list słów. Stwierdzono, że rodziny IE i Uralic można zrekonstruować, ale nie ma dowodów na istnienie wspólnej nadrodziny.
Metoda Nichola
Ta metoda wykorzystuje stabilne pola leksykalne, takie jak czasowniki postawy, aby spróbować nawiązać relacje na odległość. Uwzględniono konwergencję i zmiany semantyczne w poszukiwaniu starożytnych pokrewnych. Przedstawiono model i zaprezentowano wyniki badania pilotażowego.
ASJP
Program automatycznej oceny podobieństw (ASJP) jest podobny do leksykostatystyki , ale ocena podobieństw jest dokonywana przez program komputerowy zgodnie ze spójnym zestawem reguł. Drzewa są generowane przy użyciu standardowych metod filogenetycznych. ASJP używa 7 symboli samogłosek i 34 symboli spółgłosek. Istnieją również różne modyfikatory. Dwa słowa są oceniane jako podobne, jeśli co najmniej dwie kolejne spółgłoski w odpowiednich słowach są identyczne, a samogłoski są również brane pod uwagę. Odsetek słów o tym samym znaczeniu uznanych za podobne dla pary języków to procent podobieństwa leksykalnego (LSP). Obliczany jest również procent podobieństwa fonologicznego (PSP). PSP jest następnie odejmowane od LSP, uzyskując odjęty procent podobieństwa (SSP), a odległość ASJP wynosi 100-SSP. Obecnie w bazie danych ASJP znajdują się dane dotyczące ponad 4500 języków i dialektów, z których zostało wygenerowane drzewo języków świata.
Metoda Servy i Petroniego
Mierzy odległość ortograficzną między słowami, aby uniknąć subiektywności ocen cognacy. Określa minimalną liczbę operacji potrzebnych do przekształcenia jednego słowa w drugie, znormalizowaną długością dłuższego słowa. Drzewo jest konstruowane z danych odległości techniką UPGMA.
Metody oceny fonetycznej
Heggarty zaproponował sposób pomiaru stopnia różnicy między pokrewnymi, a nie tylko odpowiedzi tak / nie. Opiera się to na zbadaniu wielu (>30) cech fonetyki glos w porównaniu z prajęzykiem. Może to wymagać dużego nakładu pracy, ale Heggarty twierdzi, że potrzebna jest tylko reprezentatywna próbka dźwięków. Zbadał również tempo zmian fonetyki i stwierdził duże zróżnicowanie tempa, tak że nie nadawało się ono do glottochronologii. Podobną ocenę fonetyki przeprowadzili wcześniej Grimes i Agard dla języków romańskich, ale wykorzystano tylko sześć punktów porównania.
Ocena metod
Metryka
Dostępne są standardowe techniki matematyczne do pomiaru podobieństwa/różnicy dwóch drzew. W przypadku drzew konsensusowych wskaźnik spójności (CI) jest miarą homoplazji. Dla jednego znaku jest to stosunek minimalnej możliwej liczby stopni na dowolnym drzewie (= 1 dla drzew binarnych) podzielony przez liczbę zrekonstruowanych stopni na drzewie. CI drzewa to suma CI znaków podzielona przez liczbę znaków. Reprezentuje proporcję poprawnie przypisanych wzorców.
Wskaźnik retencji (RI) mierzy stopień podobieństwa postaci. Jest to stosunek (g - s) / (g - m), gdzie g to największa liczba kroków postaci na dowolnym drzewie, m to minimalna liczba kroków na dowolnym drzewie, a s to minimalna liczba kroków na określonym drzewo. Istnieje również przeskalowany CI, który jest iloczynem CI i RI.
W przypadku drzew binarnych standardowym sposobem porównywania ich topologii jest użycie metryki Robinsona-Fouldsa . Odległość ta jest średnią liczby fałszywie dodatnich i fałszywie ujemnych wyników pod względem występowania rozgałęzień. Wskaźniki RF powyżej 10% są uważane za słabe dopasowania. Dla innych rodzajów drzew i sieci nie ma jeszcze standardowej metody porównania.
Listy niekompatybilnych znaków są tworzone przez niektóre metody tworzenia drzew. Mogą one być niezwykle pomocne w analizie danych wyjściowych. W przypadku stosowania metod heurystycznych problemem jest powtarzalność. Jednak do przezwyciężenia tego problemu stosuje się standardowe techniki matematyczne.
Porównanie z poprzednimi analizami
W celu oceny metod wybrano dobrze poznaną rodzinę języków z wiarygodnym zbiorem danych. Ta rodzina to często rodzina IE, ale używano innych. Po zastosowaniu porównywanych metod do bazy danych, otrzymane drzewa są porównywane z drzewem referencyjnym wyznaczonym tradycyjnymi metodami lingwistycznymi. Celem jest brak konfliktów w topologii, na przykład brak brakujących podgrup i zgodne daty. Rodziny zaproponowane do tej analizy przez Nicholsa i Warnowa to germańskie, romańskie, słowiańskie, pospolite tureckie, chińskie i Mixe Zoque, a także starsze grupy, takie jak Oceanic i IE.
Wykorzystanie symulacji
Chociaż użycie prawdziwych języków dodaje realizmu i stwarza prawdziwe problemy, powyższa metoda sprawdzania poprawności jest niekorzystna z powodu faktu, że prawdziwa ewolucja języków jest nieznana. Dzięki wygenerowaniu zestawu danych z symulowanej ewolucji znane jest prawidłowe drzewo. Będzie to jednak uproszczona wersja rzeczywistości. W związku z tym należy stosować obie techniki ewaluacji.
Analiza wrażliwości
Aby ocenić solidność rozwiązania, pożądane jest zróżnicowanie danych wejściowych i ograniczeń oraz obserwacja danych wyjściowych. Każda zmienna jest po kolei nieznacznie zmieniana. Analiza ta została przeprowadzona w wielu przypadkach, a metody okazały się solidne, na przykład przez Atkinsona i Graya.
Badania porównujące metody
Na początku lat 90. językoznawca Donald Ringe wraz z informatykami Luayem Nakhlehem i Tandym Warnowem , statystykiem Stevenem N. Evansem i innymi rozpoczął współpracę nad badaniami nad ilościowymi porównawczymi projektami językowymi. Później założyli projekt CHPL, którego cele obejmują: „tworzenie i utrzymywanie rzeczywistych zbiorów danych językowych, w szczególności języków indoeuropejskich”, „formułowanie modeli statystycznych, które oddają ewolucję historycznych danych językowych”, „projektowanie narzędzi symulacyjnych i dokładności środki do generowania danych syntetycznych do badania wydajności metod rekonstrukcji” oraz „opracowywanie i wdrażanie metod statystycznych i kombinatorycznych do rekonstrukcji filogenezy językowych, w tym sieci filogenetycznych”.
Porównanie metod kodowania przeprowadzili Rexova i in. (2003). Stworzyli zredukowany zestaw danych z bazy danych Dyen, ale z dodatkiem hetyckim. Stworzyli standardową macierz wielostanową, w której 141 stanów znaków odpowiada poszczególnym pokrewnym klasom, co pozwala na polimorfizm. Dołączyli także do niektórych pokrewnych klas, aby zmniejszyć subiektywność, a stany polimorficzne nie były dozwolone. Na koniec stworzyli macierz binarną, w której każda klasa słów była traktowana jako osobny znak. Matryce zostały przeanalizowane przez PAUP. Stwierdzono, że użycie macierzy binarnej spowodowało zmiany w pobliżu korzenia drzewa.
McMahon i McMahon (2003) wykorzystali trzy programy PHYLIP (NJ, Fitch i Kitch) na zbiorze danych DKB. Okazało się, że otrzymane wyniki były bardzo podobne. Bootstrapping został użyty do przetestowania solidności dowolnej części drzewa. Później wykorzystali podzbiory danych do oceny ich retencji i możliwości rekonstrukcji. Wyniki wykazały różnice topologiczne, które przypisywano zapożyczaniu. Następnie wykorzystali również Network, Split Decomposition, Neighbor-net i SplitsTree na kilku zestawach danych. Stwierdzono istotne różnice między dwiema ostatnimi metodami. Sieć sąsiadów została uznana za optymalną dla wymagającego kontaktu językowego.
W 2005 roku Nakhleh, Warnow, Ringe i Evans przeprowadzili porównanie sześciu metod analizy przy użyciu indoeuropejskiej bazy danych. Porównywane metody to UPGMA, NJ MP, MC, WMC i GA. Pakiet oprogramowania PAUP został użyty do UPGMA, NJ i MC, a także do obliczenia większości drzew konsensusu. Wykorzystano bazę danych RWT, ale usunięto 40 znaków ze względu na dowody polimorfizmu. Następnie utworzono przejrzaną bazę danych, z wyłączeniem wszystkich postaci, które wyraźnie wykazywały równoległy rozwój, eliminując w ten sposób 38 cech. Drzewa oceniano na podstawie liczby niekompatybilnych cech i zgodności z ustalonymi wynikami podgrupowania. Znaleźli to UPGMA był wyraźnie najgorszy, ale nie było dużej różnicy między innymi metodami. Wyniki zależały od użytego zestawu danych. Stwierdzono, że ważenie znaków było ważne, co wymaga osądu językowego.
Saunders (2005) porównał NJ, MP, GA i Neighbor-Net na podstawie kombinacji danych leksykalnych i typologicznych. Zalecił użycie metody AH, ale Nichols i Warnow mają pewne obawy co do metodologii badania.
Cysouw i in. (2006) porównali oryginalną metodę Holma z NJ, Fitch, MP i SD. Odkryli, że metoda Holma jest mniej dokładna niż inne.
W 2013 roku François Barbancon, Warnow, Evans, Ringe i Nakleh (2013) badali różne metody rekonstrukcji drzew przy użyciu symulowanych danych. Ich symulowane dane różniły się liczbą krawędzi kontaktowych, stopniem homoplazji, odchyleniem od zegara leksykalnego i odchyleniem od założenia dotyczącego współczynników w różnych miejscach. Stwierdzono, że dokładność metod nieważonych (MP, NJ, UPGMA i GA) była spójna we wszystkich badanych warunkach, przy czym MP była najlepsza. Dokładność obu ważonych metod (WMC i WMP) zależała od stosowności schematu ważenia. Przy niskiej homoplazji metody ważone generalnie dawały dokładniejsze wyniki, ale nieodpowiednie ważenie może sprawić, że będą one gorsze niż MP lub GA przy umiarkowanych lub wysokich poziomach homoplazji.
Wybór najlepszego modelu
Wybór odpowiedniego modelu ma kluczowe znaczenie dla wykonania dobrych analiz filogenetycznych. Zarówno niedoparametryzowane, jak i nadmiernie restrykcyjne modele mogą powodować nieprawidłowe zachowanie, gdy ich podstawowe założenia zostaną naruszone, podczas gdy modele nadmiernie złożone lub nadmiernie sparametryzowane wymagają długich czasów działania, a ich parametry mogą być nadmiernie dopasowane. Najpowszechniejszą metodą wyboru modelu jest „test ilorazu wiarygodności”, który daje oszacowanie dopasowania między modelem a danymi, ale jako alternatywę można zastosować kryterium informacyjne Akaike lub kryterium informacyjne Bayesa. Dostępne są programy komputerowe do wyboru modeli.
Zobacz też
Notatki
Bibliografia
- Atkinson, Nicholls, Welsh and Gray: Od słów do dat - Transakcje Towarzystwa Filologicznego 103 (2005).
- Bandelt i Drew: Split Decomposition - Molecular Phylogentic Evolution 1 (1992).
- Bandelt, Forster i Rohl: Sieci łączenia median do wnioskowania o filogenezach wewnątrzgatunkowych - Molecular Biological Evolution 16 (1999).
- Bryant, Filimon i Gray: Rozplątanie naszej przeszłości: języki, drzewa, podziały i sieci [ martwy link ] (w The Evolution of Cultural Diversity autorstwa Mace, Holden i Shennan UCL 2005).
- Evans i Warnow : Niezidentyfikowane czasy rozbieżności w modelach stawek w różnych lokalizacjach - IEEE/ACM Transactions on Computational Biology and Bioinformation 1 (2005).
- Huelsenbeck i Ronquist: Mr Bayes, Bayesowskie wnioskowanie o filogenezie - Bioinfomatics 17 (2001).
- Huson: Splitstree, program do analizy i wizualizacji danych ewolucyjnych - Bioinfomatics 14(1) (1998).
- Warnow , Evans, Ringe i Nakhleh: Stochastyczny model ewolucji języka, który obejmuje homoplasy i zapożyczenia (w metodach filogenetycznych i prehistorii języków - Forster i Renfrew, 2006).
- Efron, Halloran i Holmes: Bootstrap poziomy ufności dla drzew filogenetycznych - Proceedings of National Academy of Sciences USA 93 (1996).
- Kowalski i Thorton: Wydajność filogenezy maksymalnej oszczędności i prawdopodobieństwa, gdy ewolucja jest heterogeniczna - Nature 431 (2004).
- Felsentein: Przypadki, w których metody oszczędności i kompatybilności będą pozytywnie mylące - Systematic Zoology 27 (1978).
- Rogers: Oszacowanie maksymalnego prawdopodobieństwa drzew filogenetycznych jest spójne, gdy wskaźniki podstawienia różnią się w zależności od niezmiennych miejsc plus rozkład gamma - Systematic Biology 59 (2001).