Alfa Krippendorffa

Współczynnik alfa Krippendorffa , nazwany na cześć naukowca Klausa Krippendorffa , jest statystyczną miarą zgodności osiągniętej podczas kodowania zestawu jednostek analizy. Od lat siedemdziesiątych XX wieku alfa jest stosowana w analizie treści , w której jednostki tekstowe są kategoryzowane przez wyszkolonych czytelników, w doradztwie i badaniach ankietowych , w których eksperci kodują dane z otwartych wywiadów w możliwe do analizy terminy, w testach psychologicznych, w których należy przeprowadzić alternatywne testy tych samych zjawisk. porównywane lub w badaniach obserwacyjnych gdzie nieustrukturyzowane zdarzenia są rejestrowane do późniejszej analizy.

Alfa Krippendorffa uogólnia kilka znanych statystyk, często nazywanych miarami zgodności między koderami, rzetelności między oceniającymi , rzetelności kodowania danych zestawów jednostek (w odróżnieniu od unityzacji), ale także odróżnia się od statystyk, które są nazywane współczynnikami rzetelności, ale nie nadają się do szczegóły kodowania danych generowanych do późniejszej analizy.

Alfa Krippendorffa ma zastosowanie do dowolnej liczby koderów, z których każdy przypisuje jedną wartość do jednej jednostki analizy, do niekompletnych (brakujących) danych, do dowolnej liczby wartości dostępnych do kodowania zmiennej, do binarnych, nominalnych, porządkowych, interwałowych, ilorazowych, biegunowych i metryki kołowe (zwróć uwagę, że nie jest to metryka w sensie matematycznym, ale często kwadrat metryki matematycznej , zobacz poziomy pomiaru ) i dostosowuje się do małych rozmiarów próbek danych dotyczących niezawodności. Zaletą pojedynczego współczynnika z tymi odmianami jest to, że obliczone rzetelności są porównywalne dla dowolnej liczby koderów, wartości, różnych metryk i nierównych rozmiarów próbek.

Dostępne jest oprogramowanie do obliczania alfa Krippendorffa.

Dane dotyczące niezawodności

Dane wiarygodności są generowane w sytuacji, w której m ≥ 2 wspólnie poinstruowani (np. przez książkę kodową ), ale niezależnie pracujący koderzy przypisują dowolną jedną ze zbiorów wartości 1,..., V do wspólnego zbioru N jednostek analizy . W ich postaci kanonicznej, dane niezawodności są zestawiane w tabeli w m -x- N zawierającej N wartości vij _które ci _, koder przypisał _jednostce uj . Zdefiniuj m _j jako liczba wartości przypisanych do jednostki j we wszystkich koderach c . Gdy dane są niekompletne, m _j może być mniejsze niż m . Dane dotyczące niezawodności wymagają, aby wartości można było sparować, tj. m _jot ≥ 2. Całkowita liczba wartości, które można sparować, wynosi ${\ Displaystyle \ suma _ {j = 1} ^ {N} m_ {j} = }$ n ≤ mN .

Aby pomóc w wyjaśnieniu, oto jak wygląda forma kanoniczna w skrócie:

	ty ₁	ty ₂	ty ₃	...	u _N
c ₁	wer. ₁₁	w. ₁₂	w. ₁₃	⋯	w. _{1 N}
c ₂	w. ₂₁	w. ₂₂	werset ₂₃	⋯	w. _{2 N}
c ₃	w. ₃₁	w. ₃₂	w. ₃₃	⋯	w. _{3 N}
⋮	⋮	⋮	⋮	⋱	⋮
do _m	v _{m 1}	v _{m 2}	v _{m 3}	⋯	v _mN

Ogólna forma alfa

Oznaczamy przez $, których$ może udzielić obserwator. Odpowiedzi wszystkich obserwatorów dla przykładu nazywamy jednostką (tworzy wielozbiór). Oznaczamy multiset z tymi jednostkami jako pozycjami, ${\ displaystyle U}$ .

Alfa jest dana przez:

{\ Displaystyle \ alfa = 1 - {\ Frac {D_ {o}} {D_ {e}}}}

gdzie $zaobserwowana$ różnica zdań, a $.$ oczekiwana przez

{\ Displaystyle D_ {o} = {\ Frac {1} {n}}\sum _{c\in R}\sum _{k\in R}\delta (c,k)\sum _{u\in U}m_{u}{\frac {n_{cku} }{P(m_{u},2)}}}

gdzie jest funkcją $metryczną$ (zauważ, że nie jest to metryka w sensie matematycznym, ale często kwadrat metryki matematycznej, patrz poniżej), ${\ displaystyle n}$ całkowita liczba możliwych do sparowania δ { \ displaystyle \ delta} elementy, ${\ Displaystyle m_ {u}}$ to liczba elementów w jednostce, ${\ Displaystyle n_ {cku}}$ liczba par ${\ Displaystyle (c, k)}$ w jednostce ${\ displaystyle u}$ i jest funkcją $_$ . Zmieniając układ terminów, sumę można interpretować koncepcyjnie jako średnią ważoną niezgodności poszczególnych jednostek --- ważoną liczbą koderów przypisanych do jednostki j:

${\ Displaystyle D_ {o} = {\ Frac {1} {n}} \ suma _ {j = 1} ^ {N} m_ {j }\,\mathbb {E} (\delta _{j})}$

mi $_ {j})}$ jest średnią liczb δ ${\ Displaystyle \ delta (v_ {ij}, v_ {i'j})}$ ${\ Displaystyle m_ {j} \$ (tutaj ${\ Displaystyle i> i'}$ i zdefiniuj elementy do sparowania). Zauważ, że w przypadku ${\ Displaystyle m_ {j} = m}$ dla wszystkich ${\ Displaystyle j}$ , ${\ Displaystyle D_ {o}}$ to tylko średnia wszystkich liczb ${\ Displaystyle \ delta (v_ {ij}, v_ {i'j})}$ z ${\ Displaystyle i> i'}$ . Istnieje również interpretacja ${\ displaystyle D_ {o}}$ jako (ważona) średnia obserwowana odległość od przekątnej.

{\ Displaystyle D_ {e} = {\ Frac {1} {P (n, 2)}} \sum _{c\in R}\sum _{k\in R}\delta (c,k)P_{ck}}

gdzie $\ Displaystyle P_ {ck}}$ jest liczbą sposobów na utworzenie pary ${\ Displaystyle (c, k)} .$ Można to postrzegać jako średnią odległość od przekątnej wszystkich możliwych par odpowiedzi, które można wyprowadzić z wielu zbiorów wszystkich obserwacji.

{\ Displaystyle P_ {ck} = {\ rozpocząć {przypadki} c \ neq k & n_ {c} n_ {k} \\ c=k&n_{c}(n_{c}-1)\end{przypadki}}}

Powyższe jest równoważne zwykłej formie $.$ uproszczeniu algebraicznym

alfa Krippendorffa jest następująca: ${\ Displaystyle \ alfa = 1- {\ Frac {D _ {{\ tekst {w jednostkach}} = {\ text{w błędzie}}}}{D_{{\text{w jednostkach i między jednostkami}}={\text{w sumie}}}}}}$

{\ displaystyle \ alpha = 1}

wskazuje na doskonałą niezawodność

{\ displaystyle \ alpha = 0}

wskazuje na całkowity brak niezawodności. Jednostki i przypisane im wartości są statystycznie niepowiązane.

{\ displaystyle \ alpha <0}

, gdy nieporozumienia są systematyczne i wykraczają poza to, czego można się spodziewać przez przypadek.

W tej ogólnej formie niezgodności Do _i De _. mogą być koncepcyjnie przejrzyste, ale są nieefektywne obliczeniowo Można je uprościć algebraicznie, zwłaszcza gdy są wyrażone w postaci bardziej pouczającej wizualnie reprezentacji macierzy koincydencji danych niezawodności.

Macierze koincydencji

Macierz koincydencji zestawia n wartości możliwych do sparowania z postaci kanonicznej danych niezawodności do kwadratowej macierzy v -by- v , gdzie v jest liczbą wartości dostępnych w zmiennej. W przeciwieństwie do macierzy kontyngencji, znanych ze statystyk asocjacji i korelacji, które zestawiają pary wartości ( tabulacja krzyżowa ), macierz zbiegów okoliczności zawiera wszystkie wartości, które można sparować . Macierz koincydencji pomija odniesienia do koderów i jest symetryczna wokół swojej przekątnej, która zawiera wszystkie idealne dopasowania, v _iu = v _i'u dla dwóch koderów i oraz i' , we wszystkich jednostkach u . Macierz zaobserwowanych zbiegów okoliczności zawiera częstości:

{\ Displaystyle {\ rozpocząć {wyrównane} o_ {vv'} & = \ suma _ {u = 1} ^ {N} {\ Frac {\ suma _ {i \ neq i'} ^ {m} ja (v_ { iu}=v)\cdot I(v_{i'u}=v')}{m_{u}-1}}=o_{v'v},\\[5pt]n_{v}&=\suma _{\ell =1}^{V}o_{v\ell }=\suma _{v_{ij}}^{m,N}I(v_{ij}=v){\text{ and }}n =\sum _{\ell =1,p=1}^{V}o_{\ell p},\end{wyrównane}}}

pomijając wartości niesparowane, gdzie I (∘) = 1, jeśli ∘ jest prawdziwe, a 0 w przeciwnym razie.

Ponieważ macierz koincydencji zestawia w tabeli wszystkie wartości, które można sparować, a jej zawartość sumuje się do całkowitej n , gdy zaangażowanych jest czterech lub więcej koderów, o _ck może być ułamkami.

Macierz oczekiwanych zbiegów okoliczności zawiera częstości:

{\ Displaystyle \ e_ {vv '} = {\ Frac {\ suma _ {i \ neq i'} ^ {m} ja (v_ {iu} =v)\cdot I(v_{i'u}=v')}{n-1}}={\frac {1}{n-1}}\cdot \left.{\begin{przypadki}n_{ v}(n_{v}-1)&{\text{if }}v=v'\\n_{v}n_{v'}&{\text{if }}v\neq v'\end{przypadki }}\right\}=e_{kc},}

które sumują się do tego samego n _c , n _k i n jak o _ck . Pod względem tych zbiegów okoliczności alfa Krippendorffa staje się:

{\ Displaystyle \ alfa = 1- {\ Frac {D_ {o}} {D_ {e}}} = 1 - {\ Frac {\ suma _ {v = 1, v' = 1} ^ {V} o_ { vv'}\delta (v,v')}{\suma _{v=1,v'=1}^{V}e_{vv'}\delta (v,v')}}.}

Funkcje różnicowe

Funkcje różnicowe między wartościami v i v ' $) {\ Displaystyle \ delta (v, v')}$ właściwości metryczne ( poziomy pomiaru ) ich zmiennej.

Ogólnie:

{\ Displaystyle {\ rozpocząć {wyrównane} \ delta (v, v ') i \ geq 0\\[4pkt]\delta (v,v)&=0\\[4pkt]\delta (v,v')&=\delta (v',v)\end{wyrównane}}}

W szczególności:

Dla danych nominalnych

{\ Displaystyle \ delta _ {\ tekst {nominalny}} (v, v') = {\ rozpocząć {przypadki} 0&{\text{if }}v=v'\\1&{\text{if }}v\neq v'\end{cases}}} , gdzie v i v

' służą jako nazwy .

Dla danych porządkowych

{\ Displaystyle \ delta _ {\ tekst {liczba porządkowa}} (v, v ') = \ lewo (\ suma _{g=v}^{g=v'}n_{g}-{\frac {n_{v}+n_{v'}}{2}}\right)^{2}} ,

gdzie v i v ′ to szeregi.

Dla danych interwałowych

{\ Displaystyle \ delta _ {\ tekst {przedział}} (v, v ') = (vv') ^ {2}}

, gdzie v i v ′ to wartości skali interwałowej .

Dla danych ilorazowych gdzie v i v

_

′ są wartościami bezwzględnymi.

Dla danych biegunowych

{\ Displaystyle \ delta _ {\ tekst {biegunowy}} (v, v ') = {\ Frac {(vv') ^ {2}} {(v + v'-2v_ {\ min}) ( 2v_{\max }-vv')}}}

, gdzie v _min i v _max określają punkty końcowe skali biegunowej.

Dla danych kołowych

{\ Displaystyle \ delta _ {\ tekst {kolisty}} (v, v ') = \ lewo (\ sin \ lewo [180 {\ Frac {vv'} {U}} \ prawo] \ prawo) ^ {2} }

, gdzie funkcja sinus jest wyrażona w stopniach, a U to obwód lub zakres wartości w okręgu lub pętli przed ich powtórzeniem. W przypadku metryk kołowych o równych przedziałach, najmniejsze i największe wartości całkowite tej metryki sąsiadują ze sobą, a U = v _największa – v _najmniejsza + 1.

Znaczenie

Ponieważ matematyczne twierdzenia rozkładu statystycznego alfa są zawsze tylko przybliżeniami, lepiej jest uzyskać rozkład alfa przez ładowanie początkowe . Rozkład alfa daje początek dwóm wskaźnikom:

Przedziały ufności obliczonej alfa na różnych poziomach istotności statystycznej
Prawdopodobieństwo, że alfa nie osiągnie wybranego minimum, wymaganego do uznania danych za wystarczająco wiarygodne (test jednostronny). Indeks ten potwierdza, że hipoteza zerowa (o przypadkowej zgodności) jest tak daleko od zakresu odpowiednich alfa , że jej odrzucenie niewiele znaczyłoby, jeśli chodzi o wiarygodność danych. Aby dane zostały uznane za wiarygodne, nie mogą znacząco odbiegać od idealnej zgodności.

Minimalny akceptowalny współczynnik alfa powinien być wybrany w zależności od wagi wniosków, jakie należy wyciągnąć z niedoskonałych danych. Kiedy koszty błędnych wniosków są wysokie, minimalna alfa musi być również ustawiona wysoko. Wobec braku wiedzy o ryzyku wyciągania fałszywych wniosków z niewiarygodnych danych, socjologowie zwykle polegają na danych o wiarygodności α ≥ 0,800, rozważają dane o 0,800 > α ≥ 0,667 tylko w celu wyciągnięcia wstępnych wniosków i odrzucają dane, których zgodność mierzy α < 0,667.

Przykład obliczeniowy

Niech kanoniczna postać danych o niezawodności będzie macierzą jednostek 3-koder na 15 z 45 komórkami:

jednostki u:	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
Koder A	*	*	*	*	*	3	4	1	2	1	1	3	3	*	3
Koder B	1	*	2	1	3	3	4	3	*	*	*	*	*	*	*
Koder C	*	*	2	1	3	4	4	*	2	1	1	3	3	*	4

Załóżmy, że „*” oznacza domyślną kategorię, taką jak „nie można kodować”, „brak odpowiedzi” lub „brak obserwacji”. Następnie * nie dostarcza żadnych informacji na temat wiarygodności danych w czterech ważnych wartościach. Należy zauważyć, że jednostki 2 i 14 nie zawierają żadnych informacji, a jednostka 1 zawiera tylko jedną wartość, której nie można sparować w ramach tej jednostki. Tak więc te dane niezawodności składają się nie z mN = 45, ale z n = 26 wartości możliwych do sparowania, nie w N = 15, ale w 12 jednostkach kodowanych wielokrotnie.

Macierz koincydencji dla tych danych byłaby skonstruowana w następujący sposób:

o ₁₁ = {w u = 4}:

{\ textstyle {\ Frac {2} {2-1}} +}

{w u = 10}:

{\ textstyle {\ Frac {2}{2-1}}+}

{w u = 11}:

{\ textstyle {\ Frac {2} {2-1}} = 6}

o ₁₃ = {w u = 8 }:

{\ textstyle {\ Frac {1} {2-1}} = 1 =}

o ₃₁

o ₂₂ = {w u = 3}:

{\ textstyle {\ Frac {2} {2-1} } +}

{w u = 9}:

{\ textstyle {\ Frac {2} {2-1}} = 4}

o ₃₃ = {w u = 5}:

{ \textstyle {\frac {2}{2-1}}+}

{w u = 6}:

{\ textstyle {\ Frac {2} {3-1}} +}

{w u = 12}:

{\ textstyle {\ Frac {2} {2-1}} +} {

w u = 13}:

{\ textstyle {\ Frac {2} {2-1}} = 7}

o ₃₄ = {w u = 6}:

{\ textstyle {\ frac {2}{3-1}}+}

{w u =15}:

{\ textstyle {\ Frac {1} {2-1}} = 2 =}

o ₄₃

o ₄₄ = {w u = 7}:

{\ textstyle {\ Frac {6} {3} -1}}=3}

Wartości v lub v ′:	1	2	3	4	n _w
Wartość 1	6		1		7
Wartość 2		4			4
Wartość 3	1		7	2	10
Wartość 4			2	3	5
Częstotliwość n _v'	7	4	10	5	26

alfa Krippendorffa można obliczyć z:

{\ Displaystyle \ alfa _ {\ tekst {metryczny}} = 1 - {\ Frac {D_ {o}} {D_ {e}}} = 1 - {\ Frac {\ suma _ {v = 1, v '= 1}^{V}o_{vv'}\delta _{\text{metryczna}}(v,v')}{{\frac {1}{n-1}}\sum _{v=1,v '=1}^{V}n_{v}n_{v'}~\delta _{\text{metryka}}(v,v')}}.}

Dla wygody, ponieważ produkty z ${\ Displaystyle \ delta (v, v) = 0}$ i ${\ Displaystyle \ delta (v, v')=\delta (v',v)}$ , tylko wpisy w jednym z trójkątów poza przekątną macierzy koincydencji są wymienione w następujący sposób:

{\ Displaystyle \ alfa _ {\ tekst {metryczny}} = 1- {\ Frac {1 \ delta _ {\ tekst {metryczny}} (1,3) + 2 \ delta _ {\ tekst {metryczny}} (3 ,4)}{{\frac {1}{26-1}}(4\cdot 7\delta _{\text{metryka}}(1,2)+10\cdot 7\delta _{\text{metryka }}(1,3)+5\cdot 7\delta _{\text{metryka}}(1,4)+10\cdot 4\delta _{\text{metryka}}(2,3)+5\ cdot 4\delta _{\text{metryka}}(2,4)+5\cdot 10\delta _{\text{metryka}}(3,4)}}}}

Biorąc pod uwagę, że wszystkie ${\ Displaystyle \ delta _ {\ tekst {nominalny}} (v, v ') = 1}$ kiedy ${\ Displaystyle v {\ neq} v' }$ dla danych nominalnych powyższe wyrażenie daje:

{\ Displaystyle \ alfa _ {\ tekst {nominalny }}=1-{\frac {1+2}{{\frac {1}{26-1}}(4\cdot 7+10\cdot 7+5\cdot 7+10\cdot 4+5\cdot 4+5\cdot 10)}}=0,691}

Z ${\ Displaystyle \ delta _ {\ tekst {przedział}} (1,2) = \ delta _ {\ tekst {przedział}} (2,3) = \ delta _ {\ tekst {interwał}}(3,4)=1^{2},\qquad \delta _{\text{interwał}}(1,3)=\delta _{\text{interwał}}(2,4)= 2^{2},{\text{ i }}\delta _{\text{interval}}(1,4)=3^{2},}$ dla danych przedziałowych powyższe wyrażenie daje:

{\ Displaystyle \ alfa _ {\ tekst {interwał}} = 1 - {\ Frac {1 \ cdot 2 ^ {2} + 2 \ cdot 1 ^ {2}} {{ \frac {1}{26-1}}(4\cdot 7\cdot 1^{2}+10\cdot 7\cdot 2^{2}+5\cdot 7\cdot 3^{2}+10\ cdot 4\cdot 1^{2}+5\cdot 4\cdot 2^{2}+5\cdot 10\cdot 1^{2})}}=0,811}

Tutaj ${\ Displaystyle \ alfa _ {\ tekst {interwał}}> \ alfa _ {\ tekst {nominalny}}},$ ponieważ zdarza się, że niezgodności występują głównie między sąsiednimi wartościami, co jest wizualizowane przez występowanie bliżej przekątnej macierz koincydencji, warunek, $bierze$ $.$ , nie Gdy obserwowane częstotliwości o _{v ≠ v ′} są średnio proporcjonalne do oczekiwanych częstotliwości mi _{v ≠ v '} , ${\ displaystyle \ alpha _ {\ text {interval}} = \ alpha _ {\ text {nominalny}}}$ .

Porównanie współczynników alfa dla różnych metryk może dostarczyć wskazówek, jak programiści konceptualizują metrykę zmiennej.

Uścisk Alpha innych statystyk

Alfa Krippendorffa łączy kilka znanych statystyk pod wspólnym parasolem, z których każda ma swoje własne ograniczenia, ale nie ma żadnych dodatkowych zalet.

Liczba pi Scotta jest współczynnikiem zgodności dla danych nominalnych i dwóch koderów. ${\ Displaystyle \ pi = {\ Frac {P_ {o} -P_ {e}} {1-P_ {e}}} {\ tekst {gdzie}} P_ {o} = \ suma _ {c} {\ frac {o_{cc}}{n}},{\text{i }}P_{e}=\sum _{c}{\frac {n_{c}^{2}}{n^{2}}} .}$ Gdy dane są nominalne, alfa redukuje się do postaci przypominającej pi Scotta : ${\ Displaystyle _ {\ tekst {nominalny}} \ alfa = 1 - {\ Frac {D_ {o}} {D_ {e}}} = {\frac {\sum _{c}o_{cc}-\sum _{c}e_{cc}}{n-\sum _{c}e_{cc}}}={\frac {\sum _{ c}{\frac {O_{cc}}{n}}-\sum _{c}{\frac {n_{c}(n_{c}-1)}{n(n-1)}}}{ 1-\suma _{c}{\frac {n_{c}(n_{c}-1)}{n(n-1)}}}}}$ $Zaobserwowana$ przez Scotta proporcja zgodności dokładnie w liczniku alfa . Oczekiwana proporcja zgodności Scotta, ${\ textstyle P_ {e} = \ suma _ {c} {\ frac {n_ {c} ^ {2}} {n ^ {2}} }}$ jest asymptotycznie przybliżone przez ${\textstyle \sum _{c}{\frac {n_{c}(n_{c}-1)}{n(n-1)}}}, gdy wielkość$ próbki n jest duża, równa, gdy jest nieskończona. Wynika z tego, że liczba pi Scotta jest szczególnym przypadkiem alfa , w którym dwóch programistów generuje bardzo dużą próbkę danych nominalnych. Dla skończonych rozmiarów próbek: ${\ Displaystyle {_ {\ tekst {nominalny}} \ alfa} = 1 - {\ tfrac {n-1} {n} }(1-\pi )\geq \pi }$ . Najwyraźniej ${\ textstyle \ lim _ {n \ do \ infty } }$ .
Kappa Fleissa jest współczynnikiem zgodności dla danych nominalnych z bardzo dużymi rozmiarami próbek, gdzie zestaw koderów przypisał dokładnie m etykiet wszystkim N jednostkom bez wyjątku (ale zauważ, że może być więcej niż m koderów i tylko niektóre etykiety podzbioru każdego instancja). Fleiss twierdził, że rozszerzył kappa Cohena na trzech lub więcej oceniających lub programistów, ale zamiast tego uogólnił pi Scotta . To zamieszanie znajduje odzwierciedlenie w wyborze nazwy przez Fleissa, która została rozpoznana poprzez zmianę nazwy na K : ${\ Displaystyle K = {\ Frac {{\ bar {P}} - {\ bar {P}} _ {e}} {1- {\ bar {P} }}_{e}}}{\text{ gdzie }}{\bar {P}}={\frac {1}{N}}\sum _{u=1}^{N}\sum _{c }{\frac {n_{cu}(n_{cu}-1)}{m(m-1)}}=\sum _{c}{\frac {o_{cc}}{mN}},{\ tekst{ i }}{\bar {P}}_{e}=\suma_{c}{\frac {n_{c}^{2}}{(mN)^{2}}}}$ Gdy rozmiary próbek są skończone, można zauważyć, że K powoduje niekonsekwencję w uzyskiwaniu proporcji obserwowanych zgodności przez liczenie dopasowań w obrębie m ( m - 1) możliwych par wartości w obrębie ${\ displaystyle {\ bar {P}}}$ u , odpowiednio wykluczając wartości sparowane ze sobą, podczas $gdy$ proporcję uzyskuje się przez zliczenie dopasowań we mN ² = n ² możliwe pary wartości, skutecznie obejmujące wartości sparowane ze sobą. To ostatnie wprowadza odchylenie do współczynnika. Jednak, podobnie jak w przypadku pi , gdy rozmiary próbek stają się bardzo duże, to odchylenie znika, a proporcja ${\ textstyle \ suma _ {c} {\ frac {n_ { c}(n_{c}-1)}{n(n-1)}}}$ w _nominalnej α powyżej asymptotycznie przybliża $} _ {e}}$ } w K. Niemniej jednak kappa Fleissa , a raczej K , przecina się z alfa w tej szczególnej sytuacji, w której ustalona liczba m koderów koduje wszystkie jednostki N (żadnych danych nie brakuje), używając kategorii nominalnych, a wielkość próby n = mN jest bardzo duży, teoretycznie nieskończony.
Współczynnik korelacji rang Spearmana rho mierzy zgodność między rankingami dwóch programistów tego samego zbioru N obiektów. W pierwotnej postaci: ${\ Displaystyle \ rho = 1 - {\ Frac {6 \ suma D ^ {2}} {N (N ^ {2} -1)}} ,}$ gdzie ${\ textstyle \ suma D ^ {2} = \ suma _ {u = 1} ^ {N} {_ {\ tekst {liczba porządkowa}} \ delta }_{c_{u}k_{u}}^{2}}$ jest sumą N różnic między rangą c jednego programisty a rangą k tego samego obiektu u drugiego programisty . Podczas gdy alfa odpowiada za powiązane rangi pod względem ich częstotliwości dla wszystkich koderów, rho uśrednia je w każdej indywidualnej instancji programisty. $Displaystyle$ przypadku braku więzi $_$ $}$ i ${\ textstyle {\ Frac {N (N ^ {2} -1)}} {6}} = {\ Frac {n} {n-1} }ND_{e}}$ , gdzie n = 2 N , który staje się ${\ Displaystyle \ ND_ {e}} Tak więc$ gdy rozmiary próbek stają się duże. rho Spearmana jest szczególnym przypadkiem alfa , w którym dwóch programistów ocenia bardzo duży zbiór jednostek. Ponownie, $porządkowa$ ${_ {\text{liczba porządkowa}}\alpha}=\rho}$ lim _ { .
Współczynnik korelacji wewnątrzklasowej Pearsona r _ii jest współczynnikiem zgodności dla danych interwałowych, dwóch koderów i bardzo dużych rozmiarów próbek. Aby to uzyskać, pierwotna sugestia Pearsona polegała na dwukrotnym wprowadzeniu obserwowanych par wartości do tabeli, raz jako c - k i raz jako k - c , do której następnie stosuje się tradycyjny współczynnik korelacji iloczynu Pearsona . Dwukrotne wprowadzenie par wartości powoduje, że wynikowa tabela staje się macierzą koincydencji bez odniesienia do dwóch koderów, zawiera n = 2 wartości N i jest symetryczny wokół przekątnej, tj. połączona linia regresji liniowej jest wciskana w linię 45°, a odniesienia do koderów są eliminowane. Stąd $przedział$ wewnątrzklasowej Pearsona szczególnym przypadkiem przedziału alfa dla dwóch koderów i dużych i ${\textstyle \lim _{n\do \infty}{_{\text{interwał}}\alpha}=r_{ii}}$ .
Wreszcie niezgodności w przedziale alfa , Du , _. Doo i _De są _wariancjami właściwymi próby Wynika z tego, że rzetelność oceniana przez przedział alfa jest zgodna ze wszystkimi technikami analitycznymi opartymi na wariancji, takimi jak analiza wariancji . Ponadto, włączając funkcje różnicowe nie tylko dla danych przedziałowych, ale także dla danych nominalnych, porządkowych, ilorazowych, biegunowych i kołowych, alpha rozszerza pojęcie wariancji na metryki którymi rzadko zajmują się klasyczne techniki analityczne.

Alfa Krippendorffa jest bardziej ogólna niż którykolwiek z tych współczynników specjalnego przeznaczenia. Dostosowuje się do różnych wielkości próbek i umożliwia porównania szerokiej gamy danych dotyczących niezawodności, w większości ignorowanych przez znane miary.

Współczynniki niezgodne z alfa a rzetelność kodowania

Semantycznie niezawodność to zdolność polegania na czymś, tutaj na zakodowanych danych do późniejszej analizy. Kiedy wystarczająco duża liczba programistów zgadza się doskonale z tym, co przeczytali lub zaobserwowali, poleganie na ich opisach jest bezpiecznym wyborem. Oceny tego rodzaju zależą od liczby koderów powielających proces i tego, jak reprezentatywne są zakodowane jednostki dla populacji będącej przedmiotem zainteresowania. Problemy interpretacyjne pojawiają się, gdy zgodność nie jest doskonała, zwłaszcza gdy brakuje wiarygodności.

Współczynniki korelacji i asocjacji. Na przykład współczynnik korelacji momentu iloczynu Pearsona r _ij mierzy odchylenia od dowolnej linii regresji liniowej między współrzędnymi i i j . O ile ta linia regresji nie jest dokładnie 45° lub wyśrodkowana, r _ij nie mierzy zgodności. Podobnie, chociaż doskonała zgodność między programistami oznacza również doskonałe powiązanie, statystyki powiązań zarejestrować dowolny powyżej przypadkowy wzór relacji między zmiennymi. Nie odróżniają zgodności od innych stowarzyszeń i dlatego nie nadają się jako miary wiarygodności.
Współczynniki mierzące stopień, w jakim koderzy są statystycznie od siebie zależni. Gdy chodzi o wiarygodność zakodowanych danych, indywidualność koderów nie może mieć w tym miejsca. Kodery należy traktować jako wymienne. korelacja wewnątrzklasowa Alpha , pi Scotta i Pearsona osiąga to dzięki temu, że jest definiowalna jako funkcja zbiegów okoliczności, a nie tylko przypadkowości. W przeciwieństwie do bardziej znanych macierzy kontyngencji, które zestawiają N par wartości i utrzymują odniesienie do dwóch koderów, macierze koincydencji zestawiają n wartości możliwe do sparowania używane w kodowaniu, niezależnie od tego, kto je wniósł, w efekcie traktując koderów jako wymiennych. Z kolei kappa Cohena definiuje oczekiwaną zgodność w kategoriach przypadkowości, jako zgodność, której można by się spodziewać, gdyby programiści byli statystycznie od siebie niezależni. Koncepcja przypadku Cohena nie obejmuje rozbieżności między indywidualnymi upodobaniami programistów do poszczególnych kategorii, karze programistów, którzy zgadzają się na użycie kategorii i nagradza tych, którzy nie zgadzają się z wyższymi wartościami kappa . To jest przyczyną innych odnotowanych dziwactw kappa . Statystyczna niezależność koderów jest tylko marginalnie związana ze statystyczną niezależnością kodowanych jednostek i przypisywanych im wartości. Kappa Cohena , ignorując kluczowe nieporozumienia, może stać się zwodniczo duża, gdy ocenia się wiarygodność kodowanych danych.
Współczynniki mierzące spójność ocen kodera. W literaturze psychometrycznej rzetelność jest zwykle definiowana jako spójność, z jaką kilka testów działa, gdy stosuje się je do wspólnego zestawu indywidualnych cech. alfa Cronbacha ma na celu ocenę stopnia, w jakim wiele testów daje skorelowane wyniki. Idealna zgodność jest oczywiście ideałem, ale alfa Cronbacha jest wysoka również wtedy, gdy wyniki testów systematycznie się zmieniają. Spójność osądów koderów nie zapewnia wymaganej gwarancji wiarygodności danych. Każde odstępstwo od identycznych osądów – systematyczne lub przypadkowe – musi być traktowane jako różnica zdań i zmniejszać mierzoną wiarygodność. Alfa Cronbacha nie jest przeznaczona do reagowania na różnice bezwzględne.
Współczynniki z liniami bazowymi (warunki, w których mierzą 0), których nie można interpretować w kategoriach wiarygodności, tj. nie mają dedykowanej wartości wskazującej, kiedy jednostki i przypisane im wartości są statystycznie niepowiązane. Prosta procentowa zgodność mieści się w zakresie od 0 = skrajna niezgoda do 100 = doskonała zgodność z szansą nie mającą określonej wartości. Jak już wspomniano, kappa Cohena mieści się w tej kategorii, definiując brak rzetelności jako statystyczną niezależność między dwoma indywidualnymi koderami. Linia bazowa Bennetta, Alperta i Goldsteina S jest definiowany w kategoriach liczby wartości dostępnych do kodowania, co ma niewiele wspólnego z tym, jak wartości są faktycznie używane. Lambda _r Goodmana i Kruskala jest zdefiniowana jako wahająca się między –1 a +1, pozostawiając 0 bez konkretnej interpretacji niezawodności. Współczynnik odtwarzalności lub zgodności Lina r _c przyjmuje korelację momentu iloczynu Pearsona r _ij jako miarę dokładności i dodaje do niej miarę dokładności C _b , rzekomo w celu skorygowania r _ij ' s wyżej wymienioną nieadekwatność. Waha się między –1 a +1, a interpretacja wiarygodności 0 jest niepewna. Istnieje więcej tak zwanych miar niezawodności, których interpretacje wiarygodności stają się wątpliwe, gdy tylko odbiegają od idealnej zgodności.

Nazwanie statystyki jako zgodności, odtwarzalności lub wiarygodności nie czyni z niej ważnego wskaźnika tego, czy można polegać na zakodowanych danych przy podejmowaniu kolejnych decyzji. Jego struktura matematyczna musi pasować do procesu kodowania jednostek w system analizowalnych terminów.

Notatki

^ Krippendorff, K. (2013) s. 221–250 opisuje matematykę alfa i jej zastosowanie w analizie treści od 1969 roku.
^ Hayes, AF & Krippendorff, K. (2007) opisują i dostarczają makra SPSS i SAS do obliczania alfa , jego granic ufności i prawdopodobieństwa nieosiągnięcia wybranego minimum.
^ Podręcznik referencyjny pakietu irr zawierający funkcję kripp.alpha() dla niezależnego od platformy pakietu statystyk R
^ Strona zasobów alfa.
^ Kod Matlab do obliczania alfa Krippendorffa.
^ Kod Pythona do obliczania alfa Krippendorffa.
^ Kod Pythona do szybkich obliczeń alfa Krippendorffa.
^ Dostępnych jest kilka napisanych przez użytkowników dodatków do komercyjnego oprogramowania Stata.
^ Implementacja Open Source Python obsługująca ramki danych
^ Honor, Dawidzie. „Zrozumienie alfa Krippendorffa” (PDF) .
^ Obliczanie niezawodności alfa Krippendorffa” http://repository.upenn.edu/asc_papers/43/
^ Krippendorff, K. (2004) s. 237–238
^ Hayes, AF & Krippendorff, K. (2007) Odpowiadając na wezwanie do standardowej miary niezawodności kodowania danych [1]
^ Krippendorff, K. (2004) s. 241–243
Bibliografia _
Bibliografia _
Bibliografia _
^ Siegel, S. & Castellan, NJ (1988), s. 284–291.
Bibliografia _
^ Pearson, K. (1901), Tildesley, ML (1921)
^ Krippendorff, K. (1970)
Bibliografia _
^ Krippendorff, K. (1978) poruszył tę kwestię z Josephem Fleissem
^ Zwick, R. (1988), Brennan, RL i Prediger, DJ (1981), Krippendorff (1978, 2004).
^ Nunnally, JC & Bernstein, IH (1994)
^ Cronbach, LJ (1951)
^ Bennett, EM, Alpert, R. & Goldstein, AC (1954)
^ Goodman, LA & Kruskal, WH (1954) s. 758
Bibliografia _

K. Krippendorff, 2013, Analiza treści: wprowadzenie do jego metodologii, wyd. Thousand Oaks, Kalifornia, USA: Sage, PP. 221-250

Bennett, Edward M., Alpert, R. i Goldstein, AC (1954). Komunikacja poprzez zadawanie pytań z ograniczoną odpowiedzią. Kwartalnik Opinii Publicznej, 18 , 303–308.
Brennan, Robert L. i Prediger, Dale J. (1981). Współczynnik kappa: Niektóre zastosowania, nadużycia i alternatywy. Pomiar edukacyjny i psychologiczny, 41 , 687–699.
Cohen, Jakub (1960). Współczynnik zgodności dla skal nominalnych. Pomiar edukacyjny i psychologiczny, 20 (1), 37–46.
Cronbach, Lee, J. (1951). Współczynnik alfa i struktura wewnętrzna testów. Psychometria, 16 (3), 297–334.
Fleiss, Joseph L. (1971). Pomiar zgodności skali nominalnej wśród wielu oceniających. Biuletyn psychologiczny, 76 , 378–382.
Goodman, Leo A. & Kruskal, William H. (1954). Miary asocjacji dla klasyfikacji krzyżowych. Journal of American Statistical Association, 49 , 732-764.
Hayes, Andrew F. i Krippendorff, Klaus (2007). Odpowiadając na wezwanie do standardowej miary niezawodności do kodowania danych. Metody i środki komunikacji, 1 , 77–89.
Krippendorff, Klaus (2013). Analiza treści: wprowadzenie do metodologii, wydanie 3 . Tysiąc Oaks, Kalifornia: Sage.
Krippendorff, Klaus (1978). Wiarygodność danych atrybutów binarnych. Biometria, 34 (1), 142–144.
Krippendorff, Klaus (1970). Szacowanie wiarygodności, błędu systematycznego i błędu losowego danych interwałowych. Pomiar edukacyjny i psychologiczny, 30 (1), 61–70.
Lin, Lawrence I. (1989). Współczynnik korelacji zgodności do oceny odtwarzalności. Biometria, 45 , 255–268.
Nunnally, Jum C. & Bernstein, Ira H. (1994). Teoria psychometryczna, wyd . Nowy Jork: McGraw-Hill.
Pearson, Karl i in. (1901). Matematyczny wkład w teorię ewolucji. IX: O zasadzie homotypozy i jej związku z dziedzicznością, zmiennością osobniczą i rasową. Część I: Homotypoza w królestwie roślin. Transakcje filozoficzne Towarzystwa Królewskiego (Londyn), Seria A, 197 , 285–379.
Scott, William A. (1955). Rzetelność analizy treści: Przypadek kodowania skali nominalnej. Kwartalnik Opinii Publicznej, 19 , 321–325.
Siegel, Sydney i Castella, N. John (1988). Statystyki nieparametryczne dla nauk behawioralnych, wyd . Boston: McGraw-Hill.
Tildesley, ML (1921). Pierwsze badanie czaszki Birmy. Biometrica, 13 , 176–267.
Włócznik, Charles E. (1904). Dowód i pomiar związku między dwiema rzeczami. American Journal of Psychology, 15 , 72–101.
Zwick, Rebeka (1988). Jeszcze jedno spojrzenie na umowę międzyludzką. Biuletyn psychologiczny, 103 (3), 347–387.

Linki zewnętrzne

Film na YouTube o alfie Krippendorffa przy użyciu SPSS i makra.
Kalkulator niezawodności oblicza alfa Krippendorffa.
Implementacja i biblioteka JavaScript Krippendorff Alpha
Implementacja Pythona
Implementacja i biblioteka Krippendorff Alpha Ruby Gem .
Implementacja Simpledorff w języku Python, która działa z ramkami danych

[1] Krippendorff, K. (2013) s. 221–250 opisuje matematykę alfa i jej zastosowanie w analizie treści od 1969 roku.

[2] Hayes, AF & Krippendorff, K. (2007) opisują i dostarczają makra SPSS i SAS do obliczania alfa , jego granic ufności i prawdopodobieństwa nieosiągnięcia wybranego minimum.

[3] Podręcznik referencyjny pakietu irr zawierający funkcję kripp.alpha() dla niezależnego od platformy pakietu statystyk R

[4] Strona zasobów alfa.

[5] Kod Matlab do obliczania alfa Krippendorffa.

[6] Kod Pythona do obliczania alfa Krippendorffa.

[7] Kod Pythona do szybkich obliczeń alfa Krippendorffa.

[8] Dostępnych jest kilka napisanych przez użytkowników dodatków do komercyjnego oprogramowania Stata.

[9] Implementacja Open Source Python obsługująca ramki danych

[10] Honor, Dawidzie. „Zrozumienie alfa Krippendorffa” (PDF) .

[11] Obliczanie niezawodności alfa Krippendorffa” http://repository.upenn.edu/asc_papers/43/

[12] Krippendorff, K. (2004) s. 237–238

[13] Hayes, AF & Krippendorff, K. (2007) Odpowiadając na wezwanie do standardowej miary niezawodności kodowania danych [1]

[14] Krippendorff, K. (2004) s. 241–243

[15] Bibliografia _

[16] Bibliografia _

[17] Bibliografia _

[18] Siegel, S. & Castellan, NJ (1988), s. 284–291.

[19] Bibliografia _

[20] Pearson, K. (1901), Tildesley, ML (1921)

[21] Krippendorff, K. (1970)

[22] Bibliografia _

[23] Krippendorff, K. (1978) poruszył tę kwestię z Josephem Fleissem

[24] Zwick, R. (1988), Brennan, RL i Prediger, DJ (1981), Krippendorff (1978, 2004).

[25] Nunnally, JC & Bernstein, IH (1994)

[26] Cronbach, LJ (1951)

[27] Bennett, EM, Alpert, R. & Goldstein, AC (1954)

[28] Goodman, LA & Kruskal, WH (1954) s. 758

[29] Bibliografia _