Klasyczna teoria testu
Klasyczna teoria testów (CTT) to zbiór powiązanych teorii psychometrycznych , które przewidują wyniki testów psychologicznych , takie jak trudność przedmiotów lub zdolności osób badanych. Jest to teoria testowania oparta na założeniu, że obserwowany lub uzyskany wynik osoby w teście jest sumą wyniku prawdziwego (wynik bezbłędny) i wyniku błędu. Ogólnie rzecz biorąc, celem klasycznej teorii testów jest zrozumienie i poprawa rzetelności testów psychologicznych.
Klasyczną teorię testów można z grubsza uważać za tożsamą z teorią wyników prawdziwych . Termin „klasyczny” odnosi się nie tylko do chronologii tych modeli, ale także kontrastuje z nowszymi teoriami psychometrycznymi, ogólnie określanymi zbiorczo jako teoria odpowiedzi na pozycje , które czasami noszą miano „nowoczesne”, jak w „nowoczesnej teorii ukrytych cech”.
Klasyczna teoria testów, jaką znamy dzisiaj, została skodyfikowana przez Novick (1966) i opisana w klasycznych tekstach, takich jak Lord i Novick (1968) oraz Allen i Yen (1979/2002). Poniższy opis klasycznej teorii testów jest następstwem tych nowatorskich publikacji.
Historia
Klasyczna teoria testów narodziła się dopiero po sformułowaniu następujących trzech osiągnięć lub idei:
1. rozpoznanie obecności błędów w pomiarach,
2. koncepcja tego błędu jako zmiennej losowej,
3. koncepcja korelacji i sposób jej indeksowania.
W 1904 roku Charles Spearman był odpowiedzialny za ustalenie, jak skorygować współczynnik korelacji tłumienia spowodowanego błędem pomiaru i jak uzyskać wskaźnik niezawodności potrzebny do dokonania poprawki. Odkrycie Spearmana jest przez niektórych uważane za początek klasycznej teorii testów (Traub, 1997). Inni, którzy mieli wpływ na ramy klasycznej teorii testów, to: George Udny Yule , Truman Lee Kelley , Fritz Kuder i Marion Richardson zaangażowani w tworzenie formuł Kudera-Richardsona , Louis Guttman , a ostatnio Melvin Novick , nie wspominając o innych przez następne ćwierć wieku po wstępnych ustaleniach Spearmana.
Definicje
Klasyczna teoria testów zakłada, że każda osoba ma prawdziwy wynik T , który zostałby uzyskany, gdyby nie było błędów w pomiarze. Prawdziwy wynik osoby jest definiowany jako oczekiwany wynik poprawnych liczb w nieskończonej liczbie niezależnych administrowań testu. nigdy nie obserwują prawdziwego wyniku danej osoby, a jedynie zaobserwowany wynik X . Przyjmuje się, że obserwowany wynik = prawdziwy wynik plus pewien błąd :
X = T + E zaobserwowany błąd wyniku rzeczywistego
Klasyczna teoria testów dotyczy relacji między trzema zmiennymi i i w populacji. Relacje te służą do powiedzenia czegoś o jakości wyników testów. W tym względzie najważniejszą koncepcją jest niezawodność . Wiarygodność obserwowanych wyników testów jako stosunek wariancji wyniku prawdziwego do obserwowanej wariancji wyniku :
Ponieważ można wykazać, że wariancja obserwowanych wyników jest równa sumie wariancji wyników prawdziwych i wariancji wyników błędnych, jest to równoważne
To równanie, które formułuje stosunek sygnału do szumu, ma intuicyjny urok: wiarygodność wyników testu staje się wyższa, gdy odsetek wariancji w wynikach testu maleje i odwrotnie. Rzetelność jest równa proporcji wariancji wyników testów, którą moglibyśmy wyjaśnić, gdybyśmy znali prawdziwe wyniki. Pierwiastek kwadratowy z rzetelności to wartość bezwzględna korelacji między wynikami prawdziwymi i obserwowanymi.
Ocena testów i wyników: Rzetelność
Rzetelności nie można oszacować bezpośrednio, ponieważ wymagałoby to znajomości prawdziwych wyników, co zgodnie z klasyczną teorią testów jest niemożliwe. Jednak szacunki niezawodności można uzyskać na różne sposoby. Jednym ze sposobów oszacowania rzetelności jest skonstruowanie tzw. testu równoległego . Podstawową właściwością testu równoległego jest to, że daje on ten sam prawdziwy wynik i taką samą zaobserwowaną wariancję wyniku, jak oryginalny test dla każdej osoby. Jeśli mamy testy równoległe x i x', oznacza to, że
I
Przy tych założeniach wynika z tego, że korelacja między równoległymi wynikami testów jest równa rzetelności (zob. Lord i Novick, 1968, rozdz. 2, dla dowodu).
Używanie testów równoległych do oszacowania niezawodności jest kłopotliwe, ponieważ testy równoległe są bardzo trudne do zdobycia. W praktyce metoda ta jest rzadko stosowana. Cronbacha używają miary wewnętrznej spójności znanej jako . Rozważmy test składający się z elementów , . Całkowity wynik testu jest definiowany jako suma wyników poszczególnych pozycji, tak że dla poszczególnych
Wtedy alfa Cronbacha jest równa
Można wykazać, że Cronbacha zapewnia dolną granicę niezawodności przy raczej założeniach [ źródło ] Zatem wiarygodność wyników testów w populacji jest zawsze wyższa niż wartość Cronbacha tej populacji. Metoda ta jest więc empirycznie wykonalna iw rezultacie cieszy się dużą popularnością wśród badaczy. Cronbacha jest zawarte w wielu standardowych pakietach statystycznych takich jak SPSS i SAS .
Jak zauważono powyżej, całe ćwiczenie z klasycznej teorii testów ma na celu znalezienie odpowiedniej definicji rzetelności. Rzetelność ma mówić coś o ogólnej jakości wyników testów, o których mowa. Ogólna idea jest taka, że im wyższa niezawodność, tym lepiej. Klasyczna teoria testów nie mówi, jak wysoka powinna być rzetelność. Zbyt wysoka wartość dla , wskazuje na nadmiarowość elementów. Około 0,8 jest zalecane do badań osobowości, podczas gdy 0,9+ jest pożądane do indywidualnych testów o wysoką stawkę. Te „kryteria” nie opierają się na formalnych argumentach, ale raczej wynikają z konwencji i praktyki zawodowej. Stopień, w jakim można je przypisać formalnym zasadom wnioskowania statystycznego, jest niejasny.
Ocena pozycji: korelacje P i pozycja-ogółem
Niezawodność zapewnia wygodny wskaźnik jakości testu w postaci jednej liczby, niezawodności. Nie zawiera jednak żadnych informacji umożliwiających ocenę pojedynczych pozycji. Analiza pozycji w podejściu klasycznym często opiera się na dwóch statystykach: wartości P (proporcja) i korelacji pozycja-całkowita ( współczynnik korelacji punktowo-dwuseryjnej ). Wartość P reprezentuje odsetek egzaminowanych odpowiadających w określonym kierunku i jest zwykle określana jako trudność przedmiotu . Korelacja pozycja-całkowita zapewnia wskaźnik dyskryminacji lub mocy różnicującej pozycji i jest zwykle określana jako dyskryminacja pozycji . Ponadto te statystyki są obliczane dla każdej odpowiedzi często używanej wielokrotnego wyboru , które są wykorzystywane do oceny pozycji i diagnozowania możliwych problemów, takich jak mylący dystraktor. Tak cenną analizę zapewnia specjalnie zaprojektowane oprogramowanie psychometryczne .
Alternatywy
Klasyczna teoria testów jest wpływową teorią wyników testów w naukach społecznych. W psychometrii teoria ta została zastąpiona bardziej wyrafinowanymi modelami z teorii odpowiedzi na pozycje (IRT) i teorii uogólnień (teoria G). Jednak IRT nie jest zawarty w standardowych pakietach statystycznych, takich jak SPSS , ale SAS może oszacować modele IRT za pośrednictwem PROC IRT i PROC MCMC, a istnieją pakiety IRT dla języka programowania statystycznego R (np. CTT) o otwartym kodzie źródłowym. Podczas gdy pakiety komercyjne rutynowo dostarczają Cronbacha , specjalistyczne oprogramowanie psychometryczne może być dla teorii IRT lub G. Jednak ogólne pakiety statystyczne często nie zapewniają pełnej analizy klasycznej ( Cronbach , aw wielu przypadkach konieczne jest również specjalistyczne oprogramowanie do analizy klasycznej
niedociągnięcia
Jednym z najważniejszych lub najbardziej znanych niedociągnięć klasycznej teorii testów jest to, że nie można oddzielić cech osoby badanej od cech testu: każda z nich może być interpretowana jedynie w kontekście drugiej. Kolejna wada polega na definicji rzetelności, która istnieje w klasycznej teorii testów, która stwierdza, że rzetelność to „korelacja między wynikami testów na równoległych formach testu”. Problem polega na tym, że istnieją różne opinie na temat tego, czym są testy równoległe. Różne współczynniki niezawodności dostarczają oszacowań niezawodności z dolną granicą lub szacunków niezawodności z nieznanymi odchyleniami. Trzecia wada dotyczy standardowego błędu pomiaru. Problem polega na tym, że zgodnie z klasyczną teorią testów przyjmuje się, że standardowy błąd pomiaru jest taki sam dla wszystkich zdających. Jednak, jak wyjaśnia Hambleton w swojej książce, wyniki każdego testu są niejednakowo precyzyjnymi miernikami dla zdających o różnych zdolnościach, przez co założenie równych błędów pomiaru dla wszystkich zdających jest niewiarygodne (Hambleton, Swaminathan, Rogers, 1991, s. 4). Czwartą i ostatnią wadą klasycznej teorii testów jest to, że jest ona zorientowana na testy, a nie pozycje. Innymi słowy, klasyczna teoria testów nie może nam pomóc w przewidywaniu, jak dobrze dana osoba lub nawet grupa zdających poradzi sobie z elementem testu.
Zobacz też
Notatki
- Allen, MJ i Yen, WM (2002). Wprowadzenie do teorii pomiaru. Long Grove, Illinois: Waveland Press.
- Novick, MR (1966) Aksjomaty i główne wyniki klasycznej teorii testów Journal of Mathematical Psychology, tom 3, wydanie 1, luty 1966, strony 1-18
- Pan, FM i Novick, MR (1968). Statystyczne teorie wyników testów psychicznych. Czytanie MA: Addison-Welsley Publishing Company
Dalsza lektura
- Gregory, Robert J. (2011). Testy psychologiczne: historia, zasady i zastosowania (wyd. Szóste). Boston: Allyn & Bacon. ISBN 978-0-205-78214-7 .
- Hogan, Thomas P.; Brooke Cannon (2007). Testy psychologiczne: praktyczne wprowadzenie (wyd. Drugie). Hoboken (New Jersey): John Wiley & Sons. ISBN 978-0-471-73807-7 .
Linki zewnętrzne
- Artykuł International Test Commission na temat klasycznej teorii testów
- TAP: darmowe oprogramowanie do klasycznej teorii testów
- Iteman: oprogramowanie do raportowania wizualnego z klasyczną teorią testów
- Lertap: oprogramowanie oparte na programie Excel do klasycznej teorii testów
- CITAS: oprogramowanie oparte na programie Excel do klasycznej teorii testów
- jMetrik: Oprogramowanie do klasycznej teorii testów