Skomputeryzowany test klasyfikacyjny

Skomputeryzowany test klasyfikacyjny ( CCT ) odnosi się, jak sugeruje jego nazwa, do testu przeprowadzanego przez komputer w celu sklasyfikowania egzaminowanych. Najpopularniejszym CCT jest test mistrzowski, w którym test klasyfikuje egzaminowanych jako „Zdany” lub „Niezaliczony”, ale termin ten obejmuje również testy, które klasyfikują egzaminowanych na więcej niż dwie kategorie. Chociaż termin ten można ogólnie uznać za odnoszący się do wszystkich przeprowadzanych komputerowo testów klasyfikacyjnych, zwykle jest on używany w odniesieniu do testów, które są przeprowadzane interaktywnie lub mają zmienną długość, podobnie jak komputerowe testy adaptacyjne (CAT ) . Podobnie jak CAT, CCT o zmiennej długości mogą osiągnąć cel testu (dokładna klasyfikacja) przy użyciu ułamka liczby elementów używanych w konwencjonalnym teście o ustalonej formie.

CCT wymaga kilku elementów:

  1. Bank pozycji skalibrowany za pomocą modelu psychometrycznego wybranego przez projektanta testu
  2. Punkt wyjścia
  3. Algorytm wyboru pozycji
  4. Kryterium zakończenia i procedura oceniania

Punkt wyjścia nie jest przedmiotem sporu; badania nad CCT dotyczą przede wszystkim zastosowania różnych metod dla pozostałych trzech komponentów. Uwaga: Kryterium zakończenia i procedura oceniania są oddzielne w CAT, ale takie same w CCT, ponieważ test kończy się w momencie dokonania klasyfikacji. Dlatego istnieje pięć elementów, które należy określić, aby zaprojektować CAT.

Wprowadzenie do CCT można znaleźć w Thompson (2007) oraz w książce Parshall, Spray, Kalohn i Davey (2006). Bibliografię opublikowanych badań CCT znajduje się poniżej.

Jak to działa

CCT jest bardzo podobny do CAT. Przedmioty są podawane pojedynczo badanemu. Po tym, jak zdający odpowie na przedmiot, komputer ocenia go i określa, czy zdającego można jeszcze sklasyfikować. Jeśli tak, test zostaje zakończony, a zdający zostaje sklasyfikowany. Jeśli nie, podawana jest inna pozycja. Proces ten powtarza się do momentu sklasyfikowania badanego lub osiągnięcia innego punktu końcowego (zarządzono wszystkimi pozycjami w banku lub osiągnięto maksymalną długość testu).

Model psychometryczny

Dla modelu psychometrycznego CCT dostępne są dwa podejścia: klasyczna teoria testów (CTT) i teoria odpowiedzi na pozycje (IRT). Klasyczna teoria testów zakłada model stanu, ponieważ jest on stosowany poprzez określenie parametrów pozycji dla próby osób egzaminowanych, które zostały określone jako należące do każdej kategorii. Na przykład kilkuset „mistrzów” i kilkuset „niemistrzów” może zostać pobranych w celu określenia trudności i dyskryminacji dla każdego z nich, ale wymaga to łatwego zidentyfikowania odrębnego zestawu osób należących do każdej grupy. Z drugiej strony IRT zakłada model cechowy; wiedza lub umiejętności mierzone testem są kontinuum. Grupy klasyfikacyjne będą musiały być mniej lub bardziej arbitralnie zdefiniowane wzdłuż kontinuum, na przykład przy użyciu cutscore do rozgraniczenia mistrzów i niemistrzów, ale specyfikacja parametrów pozycji zakłada model cech.

Istnieją zalety i wady każdego. CTT oferuje większą prostotę koncepcyjną. Co ważniejsze, CTT wymaga mniejszej liczby egzaminowanych w próbie do kalibracji parametrów pozycji, które mają być ostatecznie wykorzystane w projekcie CCT, co czyni go użytecznym w mniejszych programach testowych. Patrz Frick (1992), aby zapoznać się z opisem CCT opartego na CTT. Jednak większość CCT wykorzystuje IRT. IRT oferuje większą specyficzność, ale najważniejszym powodem może być to, że projekt CCT (i CAT) jest kosztowny, a zatem jest bardziej prawdopodobne, że zostanie wykonany przez duży program testowy z dużymi zasobami. Taki program prawdopodobnie używałby IRT.

Punkt wyjścia

CCT musi mieć określony punkt początkowy, aby umożliwić określone algorytmy. Jeśli test ilorazu prawdopodobieństwa sekwencyjnego jest używany jako kryterium zakończenia, domyślnie zakłada on współczynnik początkowy równy 1,0 (równe prawdopodobieństwo, że badany jest mistrzem lub niemistrzem). Jeśli kryterium zakończenia jest oparte na przedziale ufności , należy określić określony punkt początkowy na theta. Zwykle jest to 0,0, środek rozkładu , ale można go również wylosować z określonego rozkładu, jeśli znane są parametry rozkładu badanego. Można również wykorzystać wcześniejsze informacje dotyczące osoby zdającej, takie jak jej wynik z ostatniego testu (jeśli podchodził ponownie).

Wybór pozycji

W CCT przedmioty są wybierane do podawania przez cały test, w przeciwieństwie do tradycyjnej metody podawania ustalonego zestawu przedmiotów wszystkim zdającym. Chociaż zwykle odbywa się to za pomocą pojedynczego przedmiotu, można to również zrobić w grupach przedmiotów zwanych testletami (Leucht i Nungester, 1996; Vos i Glas, 2000).

Metody selekcji przedmiotów dzielą się na dwie kategorie: oparte na cutscore i oparte na szacunkach. Metody oparte na cutscore (znane również jako selekcja sekwencyjna) maksymalizują informacje dostarczane przez przedmiot w cutscore lub cutscore, jeśli jest ich więcej niż jeden, niezależnie od zdolności badanego. Metody oparte na szacunkach (znane również jako selekcja adaptacyjna) maksymalizują informacje przy bieżącym oszacowaniu zdolności osoby badanej, niezależnie od lokalizacji wyniku. Oba działają wydajnie, ale wydajność zależy częściowo od zastosowanego kryterium zakończenia. Ponieważ sekwencyjny test ilorazu prawdopodobieństwa ocenia tylko prawdopodobieństwa w pobliżu wyniku przecięcia, bardziej odpowiedni jest wybór pozycji na podstawie wyniku przecięcia. Ponieważ przedziału ufności koncentruje się wokół oszacowania zdolności osoby badanej, wybór pozycji oparty na oszacowaniu jest bardziej odpowiedni. Dzieje się tak, ponieważ test dokona klasyfikacji, gdy przedział ufności jest na tyle mały, że znajduje się całkowicie powyżej lub poniżej wyniku przecięcia (patrz poniżej). Przedział ufności będzie mniejszy, gdy błąd standardowy pomiaru jest mniejszy, a błąd standardowy pomiaru będzie mniejszy, gdy informacji na poziomie theta osoby badanej jest więcej.

Kryterium zakończenia

Istnieją trzy kryteria zakończenia powszechnie stosowane w przypadku CCT. Metody Bayesowskiej teorii decyzji oferują dużą elastyczność, prezentując nieskończony wybór struktur strat/użyteczności i rozważań dotyczących oceny, ale także wprowadzają większą arbitralność. Podejście przedziału ufności oblicza przedział ufności wokół aktualnego oszacowania theta badanego w każdym punkcie testu i klasyfikuje badanego, gdy przedział mieści się całkowicie w obszarze theta, który definiuje klasyfikację. Pierwotnie było to znane jako adaptacyjne testowanie opanowania (Kingsbury i Weiss, 1983), ale niekoniecznie wymaga adaptacyjnego wyboru przedmiotów, ani nie ogranicza się do sytuacji testowania opanowania dwóch klasyfikacji. Test ilorazu prawdopodobieństwa sekwencyjnego (Reckase, 1983) definiuje problem klasyfikacji jako test hipotezy , że theta osoby badanej jest równe określonemu punktowi powyżej wyniku przecięcia lub określonemu punktowi poniżej wyniku przecięcia.

Bibliografia badań CCT

  • Armitage, P. (1950). Analiza sekwencyjna z więcej niż dwiema alternatywnymi hipotezami i jej związek z analizą funkcji dyskryminacyjnej. Dziennik Królewskiego Towarzystwa Statystycznego , 12, 137–144.
  • Braun, H., Bejar, II i Williamson, DM (2006). Oparte na regułach metody automatycznego oceniania: zastosowanie w kontekście licencjonowania. W Williamson, DM, Mislevy, RJ i Bejar, II (red.) Zautomatyzowana ocena złożonych zadań w testach komputerowych. Mahwah, NJ: Erlbaum.
  • Dodd, BG, De Ayala, RJ i Koch, WR (1995). Skomputeryzowane testy adaptacyjne z elementami wielotomowymi. Stosowany pomiar psychologiczny, 19, 5-22.
  • Eggen, TJHM (1999). Wybór pozycji w testowaniu adaptacyjnym z sekwencyjnym testem ilorazu prawdopodobieństwa. Stosowany pomiar psychologiczny, 23, 249–261.
  • Eggen, TJH M i Straetmans, GJJM (2000). Skomputeryzowane testy adaptacyjne do klasyfikacji zdających na trzy kategorie. Pomiar edukacyjny i psychologiczny, 60, 713–734.
  • Epstein, KI i Knerr, CS (1977). Zastosowania procedur testowania sekwencyjnego do testowania wydajności. Artykuł przedstawiony na konferencji Computerized Adaptive Testing Conference w 1977 r., Minneapolis, MN.
  • Ferguson, RL (1969). Opracowanie, wdrożenie i ocena wspomaganego komputerowo testu rozgałęzionego dla programu indywidualnie określonych instrukcji. Niepublikowana rozprawa doktorska, University of Pittsburgh.
  • Frick, TW (1989). Adaptacja bayesowska podczas testów komputerowych i ćwiczeń kierowanych komputerowo. Journal of Educational Computing Research, 5, 89–114.
  • Frick, TW (1990). Porównanie trzech modeli decyzyjnych do dostosowania długości komputerowych testów biegłych. Journal of Educational Computing Research, 6, 479–513.
  • Frick, TW (1992). Skomputeryzowane adaptacyjne testy biegłości jako systemy ekspertowe. Journal of Educational Computing Research, 8, 187–213.
  • Huang, C.-Y., Kalohn, JC, Lin, C.-J. i Spray, J. (2000). Szacowanie parametrów przedmiotów na podstawie klasycznych wskaźników do rozwoju puli przedmiotów za pomocą komputerowego testu klasyfikacji. (Raport z badań 2000–4). Iowa City, IA: ACT, Inc.
  • Jacobs-Cassuto, MS (2005). Porównanie adaptacyjnego testowania biegłości przy użyciu testów

Z 3-parametrowym modelem logistycznym. Niepublikowana rozprawa doktorska, University of Minnesota, Minneapolis, MN.

  • Jiao, H. i Lau, AC (2003). Skutki niedopasowania modelu w komputerowym teście klasyfikacji. Artykuł przedstawiony na dorocznym spotkaniu National Council of Educational Measurement, Chicago, IL, kwiecień 2003.
  • Jiao, H., Wang, S. i Lau, Kalifornia (2004). Badanie dwóch procedur kombinowanych SPRT dla decyzji klasyfikacyjnych w trzech kategoriach w komputerowym teście klasyfikacyjnym. Artykuł przedstawiony na dorocznym spotkaniu American Educational Research Association, San Antonio, kwiecień 2004.
  • Kalohn, JC i Spray, JA (1999). Wpływ błędnej specyfikacji modelu na decyzje klasyfikacyjne podejmowane za pomocą testu komputerowego. Journal of Educational Measurement, 36, 47–59.
  • Kingsbury, GG i Weiss, DJ (1979). Adaptacyjna strategia testowania pod kątem mistrzowskich decyzji. Raport z badań 79–05. Minneapolis: University of Minnesota, Laboratorium Metod Psychometrycznych.
  • Kingsbury, GG i Weiss, DJ (1983). Porównanie adaptacyjnego testowania opanowania opartego na IRT i procedury sekwencyjnego testowania opanowania. W DJ Weiss (red.), Nowe horyzonty w testowaniu: teoria cech ukrytych i komputerowe testy adaptacyjne (s. 237–254). Nowy Jork: prasa akademicka.
  • Lau, Kalifornia (1996). Solidność jednowymiarowej skomputeryzowanej procedury opanowania testowania z wielowymiarowymi danymi testowymi. Niepublikowana rozprawa doktorska, University of Iowa, Iowa City IA.
  • Lau, Kalifornia i Wang, T. (1998). Porównywanie i łączenie pozycji dychotomicznych i wielotomowych z procedurą SPRT w komputerowych testach klasyfikacyjnych. Artykuł przedstawiony na dorocznym spotkaniu American Educational Research Association w San Diego.
  • Lau, Kalifornia i Wang, T. (1999). Skomputeryzowane testy klasyfikacyjne pod praktycznymi ograniczeniami z modelem wielotomowym. Artykuł przedstawiony na dorocznym spotkaniu American Educational Research Association, Montreal, Kanada.
  • Lau, Kalifornia i Wang, T. (2000). Nowa procedura wyboru pozycji dla mieszanych typów pozycji w komputerowych testach klasyfikacyjnych. Artykuł przedstawiony na dorocznym spotkaniu American Educational Research Association, Nowy Orlean, Luizjana.
  • Lewis, C. i Sheehan, K. (1990). Wykorzystanie bayesowskiej teorii decyzji do zaprojektowania skomputeryzowanego testu biegłości. Stosowany pomiar psychologiczny, 14, 367–386.
  • Lin, C.-J. & Spray, JA (2000). Wpływ kryteriów wyboru pozycji na testy klasyfikacyjne z testem sekwencyjnego ilorazu prawdopodobieństwa. (Raport z badań 2000–8). Iowa City, IA: ACT, Inc.
  • Linn, RL, Rock, DA i Cleary, TA (1972). Testowanie sekwencyjne dla decyzji dychotomicznych. Pomiar edukacyjny i psychologiczny, 32, 85–95.
  • Luecht, RM (1996). Wielowymiarowe skomputeryzowane testy adaptacyjne w kontekście certyfikacji lub licencjonowania. Stosowany pomiar psychologiczny, 20, 389–404.
  • Reckase, MD (1983). Procedura podejmowania decyzji z wykorzystaniem testów dostosowanych. W DJ Weiss (red.), Nowe horyzonty w testowaniu: teoria cech ukrytych i komputerowe testy adaptacyjne (s. 237–254). Nowy Jork: prasa akademicka.
  • Rudner, LM (2002). Badanie adaptacyjnych procedur testowania teorii decyzji. Artykuł przedstawiony na dorocznym spotkaniu American Educational Research Association, 1-5 kwietnia 2002, Nowy Orlean, LA.
  • Sheehan, K. i Lewis, C. (1992). Skomputeryzowane testy biegłości z nierównoważnymi testletami. Stosowany pomiar psychologiczny, 16, 65–76.
  • Spray, JA (1993). Klasyfikacja wielu kategorii przy użyciu sekwencyjnego testu ilorazu prawdopodobieństwa (raport z badań 93–7). Iowa City, Iowa: ACT, Inc.
  • Spray, JA, Abdel-fattah, AA, Huang, C. i Lau, CA (1997). Jednowymiarowe przybliżenia dla testu komputerowego, gdy pula pozycji i przestrzeń ukryta są wielowymiarowe (Research Report 97-5). Iowa City, Iowa: ACT, Inc.
  • Spray, JA i Reckase, MD (1987). Wpływ błędu estymacji parametrów pozycji na decyzje podejmowane za pomocą testu ilorazu sekwencyjnego prawdopodobieństwa (Research Report 87–17). Iowa City, IA: ACT, Inc.
  • Spray, JA i Reckase, MD (1994). Wybór pozycji testowych do podejmowania decyzji za pomocą komputerowego testu adaptacyjnego. Referat przedstawiony na dorocznym spotkaniu Krajowej Rady ds. Pomiarów w Edukacji (Nowy Orlean, LA, 5–7 kwietnia 1994 r.).
  • Spray, JA i Reckase, MD (1996). Porównanie SPRT i sekwencyjnych procedur Bayesa do klasyfikacji zdających na dwie kategorie za pomocą testu komputerowego. Journal of Educational & Behavioural Statistics, 21, 405–414.
  • Thompson, NA (2006). Skomputeryzowane testy klasyfikacyjne o zmiennej długości z teorią odpowiedzi na pozycje. Przegląd egzaminu CLEAR, 17(2).
  • Vos, HJ (1998). Optymalne zasady sekwencyjne dla instrukcji komputerowych. Journal of Educational Computing Research, 19, 133–154.
  • Vos, HJ (1999). Zastosowania bayesowskiej teorii decyzji do sekwencyjnego testowania opanowania. Journal of Educational and Behavioural Statistics, 24, 271–292.
  • Wald, A. (1947). Analiza sekwencyjna. Nowy Jork: Wiley.
  • Weiss, DJ i Kingsbury, GG (1984). Zastosowanie komputerowych testów adaptacyjnych do problemów edukacyjnych. Journal of Educational Measurement, 21, 361–375.
  • Weissman, A. (2004). Wzajemny wybór pozycji informacji w klasyfikacji wielokategorii CAT. Artykuł przedstawiony na dorocznym spotkaniu Krajowej Rady ds. Pomiarów w Edukacji, San Diego, Kalifornia.
  • Weitzman, RA (1982a). Sekwencyjne testowanie selekcji. Stosowany pomiar psychologiczny, 6, 337–351.
  • Weitzman, RA (1982b). Wykorzystanie testów sekwencyjnych do wstępnej selekcji potencjalnych kandydatów do służby wojskowej. W DJ Weiss (red.), Proceedings of the 1982 Computerized Adaptive Testing Conference. Minneapolis, MN: University of Minnesota, Wydział Psychologii, Program Metod Psychometrycznych, 1982.

Linki zewnętrzne