Pi Scotta

Liczba pi Scotta (nazwana na cześć Williama A. Scotta ) to statystyka służąca do pomiaru wiarygodności między oceniającymi dla danych nominalnych w badaniach nad komunikacją . Jednostki tekstowe są opatrzone adnotacjami kategoriami przez różnych adnotatorów, a do oceny stopnia zgodności między adnotatorami stosuje się różne miary, z których jednym jest pi Scotta. Ponieważ automatyczne dodawanie adnotacji do tekstu jest popularnym problemem w przetwarzaniu języka naturalnego , a celem jest sprawienie, aby tworzony program komputerowy zgadzał się z ludźmi w tworzonych przez siebie adnotacjach, ocena stopnia, w jakim ludzie zgadzają się ze sobą, jest ważna dla ustalenia rozsądnego górnego limitu wydajności komputera.

Wstęp

Pi Scotta jest podobne do kappa Cohena, ponieważ poprawia prostą zaobserwowaną zgodność, biorąc pod uwagę zakres zgodności, którego można by się spodziewać przypadkowo. Jednak w każdej statystyce oczekiwana zgodność jest obliczana nieco inaczej. Pi Scotta zakłada, że adnotatorzy mają ten sam rozkład odpowiedzi, co sprawia, że kappa Cohena zawiera nieco więcej informacji. Liczba pi Scotta została rozszerzona do więcej niż dwóch adnotatorów przez kappa Fleissa .

Równanie liczby pi Scotta, podobnie jak kappa Cohena , jest następujące:

{\ Displaystyle \ pi = {\ Frac {\ Pr (a) - \ Pr (e)} {1- \ Pr (e)}

Jednak Pr (e) jest obliczane przy użyciu podniesionych do kwadratu „wspólnych proporcji”, które są kwadratowymi średnimi arytmetycznymi proporcji krańcowych (podczas gdy Cohen używa ich kwadratowych średnich geometrycznych).

Działający przykład

Matryca zamieszania dla dwóch adnotatorów, trzy kategorie {Tak, Nie, Być może} i 45 ocenianych pozycji (90 ocen dla 2 adnotatorów):

	Tak	NIE	Może	Suma krańcowa
Tak	1	2	3	6
NIE	4	5	6	15
Może	7	8	9	24
Suma krańcowa	12	15	18	45

Aby obliczyć oczekiwaną zgodność, zsumuj marginesy wszystkich adnotatorów i podziel przez całkowitą liczbę ocen, aby uzyskać łączne proporcje. Podnieś do kwadratu i zsumuj:

	Ann1	Anna2	Wspólna proporcja	JP do kwadratu
Tak	12	6	(12 + 6)/90 = 0,2	0,04
NIE	15	15	(15 + 15)/90 = 0,333	0,111
Może	18	24	(18 + 24)/90 = 0,467	0,218
Całkowity				0,369

Aby obliczyć zaobserwowaną zgodność, podziel liczbę elementów, co do których adnotatorzy zgodzili się, przez całkowitą liczbę elementów. W tym przypadku,

{\ Displaystyle \ Pr (a) = {\ Frac {1 + 5 + 9} {45}} = 0,333.}

Biorąc pod uwagę, że Pr(e) = 0,369, liczba pi Scotta wynosi wtedy

{\ Displaystyle \ pi = {\ Frac {0,333-0,369} {1-0,369}} = -0,057.}

Zobacz też

Alfa Krippendorffa

Scott, W. (1955). „Wiarygodność analizy treści: przypadek kodowania w skali nominalnej”. Kwartalnik opinii publicznej, 19(3), 321-325.
Krippendorff, K. (2004b) „Wiarygodność w analizie treści: Niektóre typowe nieporozumienia i zalecenia”. w badaniach komunikacji międzyludzkiej. Tom. 30, s. 411-433.