Pi Scotta

Liczba pi Scotta (nazwana na cześć Williama A. Scotta ) to statystyka służąca do pomiaru wiarygodności między oceniającymi dla danych nominalnych w badaniach nad komunikacją . Jednostki tekstowe są opatrzone adnotacjami kategoriami przez różnych adnotatorów, a do oceny stopnia zgodności między adnotatorami stosuje się różne miary, z których jednym jest pi Scotta. Ponieważ automatyczne dodawanie adnotacji do tekstu jest popularnym problemem w przetwarzaniu języka naturalnego , a celem jest sprawienie, aby tworzony program komputerowy zgadzał się z ludźmi w tworzonych przez siebie adnotacjach, ocena stopnia, w jakim ludzie zgadzają się ze sobą, jest ważna dla ustalenia rozsądnego górnego limitu wydajności komputera.

Wstęp

Pi Scotta jest podobne do kappa Cohena, ponieważ poprawia prostą zaobserwowaną zgodność, biorąc pod uwagę zakres zgodności, którego można by się spodziewać przypadkowo. Jednak w każdej statystyce oczekiwana zgodność jest obliczana nieco inaczej. Pi Scotta zakłada, że ​​adnotatorzy mają ten sam rozkład odpowiedzi, co sprawia, że ​​kappa Cohena zawiera nieco więcej informacji. Liczba pi Scotta została rozszerzona do więcej niż dwóch adnotatorów przez kappa Fleissa .

Równanie liczby pi Scotta, podobnie jak kappa Cohena , jest następujące:

Jednak Pr (e) jest obliczane przy użyciu podniesionych do kwadratu „wspólnych proporcji”, które są kwadratowymi średnimi arytmetycznymi proporcji krańcowych (podczas gdy Cohen używa ich kwadratowych średnich geometrycznych).

Działający przykład

Matryca zamieszania dla dwóch adnotatorów, trzy kategorie {Tak, Nie, Być może} i 45 ocenianych pozycji (90 ocen dla 2 adnotatorów):

Tak NIE Może Suma krańcowa
Tak 1 2 3 6
NIE 4 5 6 15
Może 7 8 9 24
Suma krańcowa 12 15 18 45

Aby obliczyć oczekiwaną zgodność, zsumuj marginesy wszystkich adnotatorów i podziel przez całkowitą liczbę ocen, aby uzyskać łączne proporcje. Podnieś do kwadratu i zsumuj:

Ann1 Anna2 Wspólna proporcja JP do kwadratu
Tak 12 6 (12 + 6)/90 = 0,2 0,04
NIE 15 15 (15 + 15)/90 = 0,333 0,111
Może 18 24 (18 + 24)/90 = 0,467 0,218
Całkowity 0,369

Aby obliczyć zaobserwowaną zgodność, podziel liczbę elementów, co do których adnotatorzy zgodzili się, przez całkowitą liczbę elementów. W tym przypadku,

Biorąc pod uwagę, że Pr(e) = 0,369, liczba pi Scotta wynosi wtedy

Zobacz też

  • Scott, W. (1955). „Wiarygodność analizy treści: przypadek kodowania w skali nominalnej”. Kwartalnik opinii publicznej, 19(3), 321-325.
  • Krippendorff, K. (2004b) „Wiarygodność w analizie treści: Niektóre typowe nieporozumienia i zalecenia”. w badaniach komunikacji międzyludzkiej. Tom. 30, s. 411-433.