Test odniesienia do normy

Test odniesienia do normy ( NRT ) to rodzaj testu , oceny lub oceny , która daje oszacowanie pozycji badanej osoby w określonej populacji w odniesieniu do mierzonej cechy. Przypisywanie wyników w takich testach można opisać jako ocenianie względne , ocenianie na krzywej ( BrE ) lub ocenianie na krzywej ( AmE , CanE ) lub za pomocą krzywych stopniowania ). Jest to metoda przypisywania uczniom ocen w klasie w taki sposób, aby uzyskać lub zbliżyć się do z góry określonego rozkładu tych ocen o określonych właściwościach średniej i wyprowadzenia, takich jak rozkład normalny (zwany także rozkładem Gaussa ). Termin „krzywa” odnosi się do krzywej dzwonowej , graficznej reprezentacji gęstości prawdopodobieństwa rozkładu normalnego, ale tej metody można użyć do uzyskania dowolnego pożądanego rozkładu ocen - na przykład rozkładu jednorodnego . Oszacowanie pochodzi z analizy wyników testów i ewentualnie innych istotnych danych z próby pobranej z populacji. Oznacza to, że ten rodzaj testu określa, czy osoba badana wypadła lepiej, czy gorzej niż inni badani, a nie to, czy osoba badana zna więcej, czy mniej materiału, niż jest to konieczne do danego celu. Termin ocena normatywna jest używany, gdy populacją odniesienia są rówieśnicy osoby badanej.

Ocenę opartą na normach można przeciwstawić ocenie opartej na kryteriach i ocenie ipsatywnej . W ocenie opartej na kryteriach wynik pokazuje, czy osoby badane wypadły dobrze, czy źle w danym zadaniu, a nie jak wypada to w porównaniu z innymi osobami badanymi; w systemie ipsatywnym osoby badane są porównywane z wynikami uzyskanymi wcześniej. Każda metoda może być użyta do oceny tego samego papieru testowego.

Robert Glaser pierwotnie ukuł terminy test z odniesieniem do normy i test z odniesieniem do kryterium .

Typowe zastosowania

Wiele egzaminów wstępnych na studia i ogólnokrajowych testów szkolnych wykorzystuje testy odniesienia do norm. SAT , Graduate Record Examination (GRE) i Wechsler Intelligence Scale for Children (WISC) porównują wyniki poszczególnych uczniów z wynikami próby normatywnej. Zdający nie mogą „nie zdać” testu, do którego odnosi się norma, ponieważ każdy z nich otrzymuje wynik, który porównuje daną osobę z innymi osobami, które przystąpiły do testu, zwykle podawany w procentach. Jest to przydatne, gdy istnieje szeroki zakres akceptowalnych wyników, a celem jest ustalenie, kto osiąga lepsze wyniki.

Testy IQ są testami odniesionymi do norm, ponieważ ich celem jest uszeregowanie inteligencji osób badanych. Mediana IQ jest ustawiona na 100, a wszyscy badani są oceniani w górę lub w dół w porównaniu z tym poziomem.

Inne rodzaje

Jako alternatywy dla testów normatywnych, testy mogą być ocenami ipsatywnymi lub ocenami opartymi na kryteriach.

Ipsatywny

W ocenie ipsatywnej wyniki poszczególnych osób porównuje się tylko z ich poprzednimi wynikami. Na przykład osoba na diecie odchudzającej jest oceniana na podstawie tego, jak jej obecna waga wypada w porównaniu z jej poprzednią wagą, a nie jak jej waga wypada w porównaniu do ideału lub jak wypada w porównaniu z inną osobą.

Odwołane do kryteriów

Test jest oparty na kryteriach , gdy wyniki są oceniane zgodnie z oczekiwanym lub pożądanym zachowaniem. Testy oceniające osobę badaną na podstawie ustalonego standardu (np. każdy powinien być w stanie przebiec jeden kilometr w mniej niż pięć minut) to testy oparte na kryteriach. Celem testu opartego na kryteriach jest ustalenie, czy dana osoba może biec tak szybko, jak chce osoba przeprowadzająca test, a nie stwierdzenie, czy dana osoba jest szybsza, czy wolniejsza niż inni biegacze. Reforma edukacji oparta na standardach koncentruje się na testowaniu opartym na kryteriach. Większość codziennych sprawdzianów i kolokwiów zdawanych w szkole, a także większość państwowych sprawdzianów osiągnięć i egzaminów dojrzałości jest oparta na kryteriach. W tym modelu możliwe jest, że wszyscy zdający zdadzą egzamin lub wszyscy zdadzą egzamin.

Metody

Jedna metoda stopniowania na krzywej składa się z trzech etapów:

Uczniom przydzielane są wyniki liczbowe (ewentualnie wyniki na wystarczająco szczegółowej skali porządkowej ). Wartości bezwzględne są mniej istotne, pod warunkiem, że kolejność wyników odpowiada względnym wynikom każdego studenta w ramach kursu.
Wyniki te są konwertowane na percentyle (lub inny system kwantyli ).
Wartości percentyla są przekształcane na oceny zgodnie z podziałem skali percentyla na przedziały, gdzie szerokość przedziału każdej oceny wskazuje pożądaną względną częstość występowania tej oceny.

Na przykład, jeśli dany kurs uniwersytecki składa się z pięciu stopni, A, B, C, D i F, gdzie A jest zarezerwowane dla 20% najlepszych studentów, B dla kolejnych 30%, C dla kolejnych 30– 40%, a D lub K dla pozostałych 10–20%, wówczas wyniki w przedziale centylowym od 0% do 10–20% otrzymają ocenę D lub F, wyniki od 11–21% do 50% otrzymają ocenę stopień C, wyniki od 51 % do 80 % otrzymują stopień B, a wyniki od 81 % do 100 % dają stopień A.

Zgodnie z powyższym przykładem krzywa ocen umożliwia instytucjom akademickim zapewnienie rozkładu studentów w ramach określonych progów średniej ocen (GPA). Ponieważ wielu profesorów ustala krzywą, aby uzyskać średnią kursu C, ^{[ wymagane wyjaśnienie ]} odpowiedni odpowiednik średniej ocen wyniósłby 2,0 w standardowej skali 4,0 stosowanej na większości uniwersytetów w Ameryce Północnej. Podobnie średnia ocen wynosząca 3,0 w skali 4,0 wskazywałaby, że uczeń należy do najlepszych 20% klasy. Krzywe ocen służą do nadania tym liczbom dodatkowego znaczenia, a zastosowany rozkład może się różnić w zależności od instytucji akademickiej.

Zalety i ograniczenia

Podstawową zaletą testów referencyjnych dla norm jest to, że mogą one dostarczyć informacji o tym, jak wyniki danej osoby w teście porównują się z wynikami innych osób w grupie referencyjnej.

Poważnym ograniczeniem testów odniesienia dla norm jest to, że grupa odniesienia może nie reprezentować bieżącej populacji będącej przedmiotem zainteresowania. Jak zauważyła międzynarodowa pula przedmiotów osobowości Oregon Research Institute strona internetowa: „Należy bardzo uważać na używanie „norm” w puszkach, ponieważ nie jest oczywiste, czy kiedykolwiek można znaleźć populację, której obecna próba jest reprezentatywnym podzbiorem. Większość „norm” wprowadza w błąd i dlatego nie należy ich używać O wiele łatwiej jest obronić lokalne normy, które wypracowuje się samodzielnie. Na przykład, jeśli chce się udzielić informacji zwrotnej członkom klasy uczniów, należy powiązać wynik każdej osoby ze średnimi i odchyleniami standardowymi uzyskanymi z samej klasy Aby zmaksymalizować pouczalność, można podać uczniom rozkład częstotliwości dla każdej skali, w oparciu o te lokalne normy, a następnie poszczególne osoby mogą znaleźć (i zakreślić) własne wyniki na tych odpowiednich rozkładach.

Odwoływanie się do norm nie gwarantuje, że test jest ważny (tj. że mierzy konstrukt, który ma mierzyć).

Inną wadą testów odniesionych do norm jest to, że nie mogą mierzyć postępu populacji jako całości, a jedynie tam, gdzie jednostki mieszczą się w całości. Należy raczej mierzyć w stosunku do ustalonego celu, na przykład, aby zmierzyć sukces programu reformy edukacyjnej, który ma na celu podniesienie osiągnięć wszystkich uczniów.

W przypadku testu opartego na normach poziom ocen był tradycyjnie ustalany na poziomie ustalonym przez środkowe 50 procent wyników. Natomiast National Children's Reading Foundation uważa, że zasadnicze znaczenie ma zapewnienie, aby praktycznie wszystkie dzieci czytały na poziomie klasy lub powyżej do trzeciej klasy, co nie może zostać osiągnięte przy definicji poziomu klasy opartej na normach.

Normy nie implikują automatycznie normy. Test odwołujący się do norm nie ma na celu wymuszenia jakichkolwiek oczekiwań co do tego, co osoby badane powinny wiedzieć lub umieć zrobić. Mierzy aktualny poziom osób badanych, porównując ich z rówieśnikami. System oparty na rangach generuje tylko dane, które wskazują, którzy uczniowie osiągają przeciętne wyniki, którzy osiągają lepsze wyniki, a którzy osiągają gorsze wyniki. Nie identyfikuje, którzy zdający są w stanie poprawnie wykonać zadania na poziomie akceptowalnym przy zatrudnieniu lub dalszej edukacji.

Ostatecznym celem krzywych ocen jest zminimalizowanie lub wyeliminowanie wpływu różnic między różnymi instruktorami tego samego kursu, zapewniając, że studenci w danej klasie są oceniani w stosunku do swoich rówieśników. Pozwala to również na obejście problemów związanych z wykorzystaniem wielu wersji danego egzaminu, metody często stosowanej, gdy daty przeprowadzania testów różnią się w zależności od sekcji klasowej. Niezależnie od różnicy w poziomie trudności, rzeczywistej lub domniemanej, krzywa ocen zapewnia zrównoważony rozkład wyników w nauce.

Jednak zakrzywione ocenianie może zwiększyć konkurencyjność między uczniami i wpłynąć na ich poczucie uczciwości wykładowców w klasie. Uczniowie są na ogół najbardziej zdenerwowani, gdy krzywa obniżyła ich ocenę w porównaniu z oceną, którą otrzymaliby, gdyby nie zastosowano krzywej. Aby do tego nie doszło, nauczyciele zwykle dokładają starań, aby sam test był wystarczająco trudny, gdy zamierzają zastosować krzywą ocen, tak aby oczekiwali, że przeciętny uczeń uzyska niższy surowy wynik niż wynik zamierzony. być stosowany jako średnia na krzywej, zapewniając w ten sposób, że wszyscy uczniowie skorzystają z krzywej. W związku z tym zakrzywionych ocen nie można stosować na ślepo i należy je dokładnie rozważyć i rozważyć w porównaniu z alternatywami, takimi jak oceny oparte na kryteriach. Co więcej, ciągłe niewłaściwe stosowanie zakrzywionych ocen może korygować oceny ze źle zaprojektowanych testów, podczas gdy oceny powinny być zaprojektowane tak, aby dokładnie odzwierciedlały cele uczenia się określone przez instruktora.

Zobacz też

Inwentaryzacja koncepcji
Ocena edukacyjna
Zrównanie
Klasyfikacja w edukacji
Lista krzywych GPA szkół prawniczych
Makabryczna stała
psychometria
Test standaryzowany — wszystkie osoby poddawane są temu samemu testowi w tych samych warunkach; używany zarówno w testach z odniesieniem do norm, jak i do testów z odniesieniem do kryteriów

Linki zewnętrzne