Holistyczna ocena pisania

Holistyczna punktacja pisania to formalna metoda przypisywania pojedynczej wartości rozszerzonemu fragmentowi dyskursu pisanego o rozmiarze akapitu lub większym. Różni się od innych metod oceny dyskursu pisanego na dwa podstawowe sposoby. Traktuje kompozycję jako całość, nie przypisując odrębnych wartości poszczególnym częściom pisma. Wykorzystuje dwóch lub więcej oceniających, a ostateczny wynik pochodzi z ich niezależnych wyników. Ocena holistyczna ma inne nazwy: „nieanalityczna”, „ogólna jakość”, „ogólna zasługa”, „ogólne wrażenie”, „szybkie wrażenie”. Chociaż wartość i walidacja systemu są przedmiotem debaty, holistyczna ocena pisania jest nadal w szerokim zastosowaniu.

Definicja

W punktacji holistycznej dwóch lub więcej oceniających niezależnie przypisuje pojedynczy wynik próbce pisania. W zależności od sytuacji oceny, wynik będzie różny (np. „78”, „zaliczony”, „zasługuje na uznanie”, „godny poziomu A”, „bardzo dobrze wykwalifikowany”), ale każda ocena musi być jednolita. Jeśli osoby oceniające zostaną poproszone o rozważenie lub ocenienie poszczególnych aspektów pisania (np. organizacji, stylu, rozumowania, wsparcia), ich ostateczny całościowy wynik nie jest matematycznie wyprowadzony z tego wstępnego rozważenia lub tych wyników. Oceniający są najpierw kalibrowani jako grupa, tak aby dwóch lub więcej z nich mogło niezależnie przypisać końcowy wynik próbce pisania w ramach wcześniej określonego stopnia wiarygodności. Końcowy wynik mieści się w ustalonej skali wartości, a oceniający starają się konsekwentnie stosować tę skalę. Końcowa ocena za tekst pochodzi z dwóch lub więcej niezależnych ocen. Ocena holistyczna jest często porównywana z oceną analityczną.

Potrzebować

Komponowanie długich fragmentów prozy było wymagane od pracowników z wielu płatnych środowisk, od nauki, biznesu i przemysłu po prawo, religię i politykę. Kompetencja w pisaniu rozszerzonej prozy była również częścią testów kwalifikacyjnych lub certyfikacyjnych dla nauczycieli, urzędników państwowych i oficerów wojskowych. W związku z tym nauka pisania jest częścią formalnej edukacji w szkole, aw USA na studiach. Jak najlepiej ocenić tę kompetencję w komponowaniu rozbudowanej prozy? Pojedyncze części można przetestować za pomocą „obiektywnych”, krótkich odpowiedzi: na przykład poprawnej pisowni i interpunkcji. Takie przedmioty są oceniane z wysokim stopniem wiarygodności. Ale jak dobrze pytania dotyczące pozycji oceniają potencjał lub osiągnięcia w pisaniu spójnych i znaczących rozszerzonych fragmentów? Testowanie kandydatów poprzez napisanie fragmentów rozszerzonego dyskursu wydaje się bardziej wiarygodną metodą oceny. Ta metoda rodzi jednak problem niezawodności. Jak wiarygodnie można ocenić wartość tekstu wśród czytelników i na podstawie różnych epizodów oceny? Nauczyciele i inni sędziowie ufają swojej wiedzy na ten temat i zrozumieniu dobrego i złego pisania, jednak to zaufanie do „konesera” od dawna jest kwestionowane. Wykazano, że znawcy o tej samej wiedzy przyznają bardzo różne oceny tym samym esejom. Punktacja holistyczna, z naciskiem zarówno na rzetelność, jak i ważność, jest lepszą metodą oceny kompetencji pisania. Z dbałością o rzetelność może również skupić się na konsekwencjach wykorzystania partytury.

Cztery rodzaje punktacji

Chociaż wypróbowano wiele różnych procedur holistycznej punktacji, cztery formy ustanowiły odrębne tradycje.

Oceniający w puli

Punktacja zbiorcza oceniających zazwyczaj wykorzystuje trzech do pięciu niezależnych czytelników dla każdej próbki pisma. Chociaż strzelcy pracują na podstawie wspólnej skali stawek i mogą mieć zestaw przykładowych dokumentów ilustrujących tę skalę („dokumenty kontrolne”), zwykle przeszli razem minimum szkolenia. Ich wyniki są po prostu sumowane lub uśredniane w celu uzyskania końcowego wyniku próbki. W Wielkiej Brytanii holistyczne ocenianie zbiorcze zostało po raz pierwszy przetestowane eksperymentalnie w 1934 r., Zatrudniając dziesięciu oceniających nauczycieli na próbkę. Po raz pierwszy zastosowano go w praktyce z ponad 11 skryptami egzaminacyjnymi w Devon w 1939 roku, przy użyciu czterech nauczycieli na esej. W Stanach Zjednoczonych rzetelność oceniającego została potwierdzona w latach 1961-1966 przez Educational Testing Service; i był używany sporadycznie w teście z języka angielskiego Educational Testing Service w latach 1963-1992, zatrudniając od trzech do pięciu oceniających na esej. Niemal synonimem terminu „ocena zbiorcza” jest „ocena rozdzielcza”

Informacje o cechach

Punktacja oparta na cechach szkoli oceniających, aby oceniali punktację w przewodniku punktacji (zwanym także „rubryką” lub „listą kontrolną”) — krótkim zestawem kryteriów pisania, z których każdy jest skalowany w formacie siatki do tej samej liczby poziomów osiągnięć. Na przykład przewodnik punktacji zastosowany w badaniu pisania studentów na City University of New York z 1969 r. Miał pięć kryteriów (pomysły, organizacja, struktura zdań, sformułowania i interpunkcja / mechanika / pisownia) i trzy poziomy (wyższy, średni, niedopuszczalny). Uzasadnienie przewodników punktacji jest takie, że zmuszają one oceniających do zwracania uwagi na rozprzestrzenianie się osiągnięć pisarskich i nie wywierania nadmiernego wpływu na jedną lub dwie („efekt halo”) . ”). Punktacja oparta na cechach jest zbliżona do analitycznych metod punktacji, w których oceniający oceniają każdą cechę niezależnie od innych cech, a następnie sumują wyniki, aby uzyskać końcową ocenę, jak w skali Diedericha. Holistyczna punktacja oparta na cechach pozostaje jednak nadal ma charakter holistyczny i prosi oceniających o wzięcie pod uwagę wszystkich cech przed podjęciem decyzji o pojedynczym wyniku końcowym.

Dostosowany oceniający

Punktacja skorygowana zakłada, że ​​niektórzy oceniający są bardziej dokładni w swoich wynikach niż inni oceniający. Każdy artykuł jest czytany niezależnie przez dwóch oceniających, a jeśli ich wyniki różnią się w pewnym stopniu, zwykle o więcej niż jeden punkt na skali ocen, wówczas artykuł jest czytany przez trzeciego, bardziej doświadczonego czytelnika. Punktatorzy, którzy powodują zbyt wiele trzecich odczytów, są czasami ponownie szkoleni podczas sesji oceniania, czasami odrzucani z korpusu czytelniczego. Holistyczna punktacja z korektą mogła zostać po raz pierwszy zastosowana przez Radę Egzaminatorów w College of the University of Chicago w 1943 r. Obecnie komercyjne usługi testowania na dużą skalę czasami stosują punktację z korektą, w której jeden oceniający esej jest wyszkolonym człowiekiem i drugi komputer zaprogramowany do automatycznego oceniania esejów, na przykład testy GRE.

Pojedynczy oceniający

Monitorowanie punktacji przez jednego oceniającego szkoli oceniających jako grupę i może dostarczyć im szczegółowy schemat oceny. Każda próbka pisemna jest jednak oceniana tylko przez jednego oceniającego, chyba że w wyniku okresowej kontroli przez monitorującego jej ocena zostanie uznana za wykraczającą poza zakres akceptowalności, a następnie zostanie ponownie oceniona, zwykle przez przełożonego. Ta metoda, zwana „pojedynczym ocenianiem” lub „pobieraniem próbek”, od dawna jest standardem na egzaminach szkolnych w Wielkiej Brytanii, mimo że wykazano, że jest mniej ważna niż ocenianie podwójne lub wielokrotne. W Stanach Zjednoczonych dla Sekcji Pisania TOEFLiBT, Educational Testing Service teraz wykorzystuje połączenie automatycznego oceniania i certyfikowanego człowieka oceniającego.

Historia

W Wielkiej Brytanii już w 1924 r. zaproponowano formalną, holistyczną punktację oceniających, która została formalnie przetestowana w latach 1934-1935. Po raz pierwszy został zastosowany w 1939 roku przez Głównego Egzaminatora RK Robertsona do ponad 11 skryptów w Lokalnym Urzędzie Egzaminacyjnym w Devon w Anglii i był tam kontynuowany przez dziesięć lat. Chociaż inne LEA w Wielkiej Brytanii wypróbowały ten system w latach pięćdziesiątych i sześćdziesiątych XX wieku, a jego niezawodność i trafność były szeroko badane przez brytyjskich naukowców, nie udało mu się go utrzymać. Wielokrotne ocenianie skryptów szkolnych, zwykle napisanych w celu wykazania kompetencji w obszarach przedmiotowych, w dużej mierze ustąpiło miejsca punktacji monitorowanej przez jednego oceniającego za pomocą analitycznych schematów oceniania.

W USA po raz pierwszy zastosowana holistyczna ocena próbek pisemnych została przeprowadzona przez Paula B. Diedericha w The College of the University of Chicago jako kompleksowy egzamin zaliczeniowy z kursu pisania na pierwszym roku. Metodą było ocenianie skorygowane przez oceniających z nauczycielami kursu jako oceniającymi i członkami Komisji Egzaminacyjnej jako oceniającymi. Około 1956 egzamin Advanced Placement College Board zapoczątkował holistyczny system oceniania dostosowanych ocen, aby oceniać eseje w celu uzyskania zaliczek z języka angielskiego. Oceniającymi byli nauczyciele szkół średnich, którzy przywrócili system oceniania do swoich szkół. Jednym z nauczycieli był Albert Lavin, który wprowadził podobną holistyczną punktację w Sir Francis Drake High School w hrabstwie Marin w Kalifornii, w latach 1966-1972, w klasach 9, 10, 11 i 12, aby pokazać postępy w pisaniu szkolnym na przestrzeni tych lat. W 1973 r. Nauczyciele z California State University and Colleges korzystali z systemu skorygowanych ocen Advanced Placement, aby oceniać eseje napisane przez studentów maturalnych w celu uzyskania zaliczenia z języka angielskiego z wyprzedzeniem. Holistyczna punktacja oceniających z puli została przetestowana już w 1950 r. Przez Educational Testing Service (używając terminu „całościowy”). Po raz pierwszy zastosowano go w teście z języka angielskiego College Board w 1963 roku. W szkolnictwie wyższym Georgia Regents 'Testing Program, test umiejętności językowych dla wschodzących juniorów, stosował go już w 1972 roku.

W USA gwałtowny wzrost punktacji holistycznej miał miejsce od około 1975 do 1990 roku, częściowo napędzany przez ruch odpowiedzialności edukacyjnej . W 1980 roku ocena piśmiennictwa szkolnego była prowadzona w co najmniej 24 stanach, zdecydowana większość na podstawie próbek pism ocenianych holistycznie. W szkolnictwie policealnym coraz więcej szkół wyższych i uniwersytetów stosowało holistyczną punktację w celu zaliczenia z góry, umieszczenia na kursach pisania pierwszego roku, wyjścia z kursów pisania oraz kwalifikacji do uzyskania statusu juniora i stopnia licencjata. Nauczyciele pisania również instruowali swoich uczniów w zakresie holistycznej punktacji, aby mogli oceniać nawzajem swoje pisanie - pedagogika nauczana w National Writing Projects.

Począwszy od ostatnich dwóch dekad XX wieku wykorzystanie punktacji holistycznej nieco spadło. Popularne stawały się inne sposoby oceniania kompetencji pisemnych ucznia, być może bardziej trafne, takie jak portfolio . College coraz bardziej zwracał się do agencji testowych, takich jak ACT i ETS , aby oceniały dla nich próbki pisania, a do pierwszej dekady XXI wieku agencje te robiły to częściowo poprzez automatyczną punktację esejów. Ale holistyczna ocena esejów przez ludzi jest nadal stosowana w komercyjnych testach na dużą skalę, takich jak GED , TOEFL iBT oraz Test ogólny GRE . Jest również używany do umieszczania lub postępu akademickiego w niektórych instytucjach szkolnictwa wyższego, na przykład na Washington State University . Jednak w przypadku przyjęcia i umieszczenia na kursach pisania większość uczelni polega obecnie na analitycznej punktacji umiejętności pisania w testach takich jak ACT , SAT , CLEP i International Baccalaureate .

Walidacja

Ocena holistyczna jest często weryfikowana przez jej wyniki. Spójność wyników oceniających lub „rzetelność oceniającego” została obliczona za pomocą co najmniej ośmiu różnych wzorów, w tym procentu zgodności, współczynnika korelacji r Pearsona, wzoru Spearmana-Browna, alfa Cronbacha i kwadratowej ważonej kappa. Koszt punktacji można obliczyć, mierząc średni czas, jaki oceniający poświęcają na ocenę próbki pisemnej, procent próbek wymagających trzeciego czytania lub wydatki na stypendia dla oceniających, wynagrodzenie prowadzących sesję, poczęstunek dla oceniających, kopiowanie maszynowe, wynajem sali, itp. Czasami, zwłaszcza w przypadku zastosowań o dużym wpływie, takich jak standardowe testy przed przyjęciem na studia, podejmowane są wysiłki w celu oszacowania równoczesnej ważności wyników. Na przykład we wczesnych badaniach nad General Education Development test (GED) , American Council on Education porównała wynik eksperymentalnego holistycznego eseju z istniejącym wynikiem wielokrotnego wyboru i stwierdziła, że ​​te dwa wyniki mierzą nieco różne zestawy umiejętności. Częściej trafność predykcyjna jest mierzona poprzez porównanie holistycznego wyniku ucznia z późniejszymi osiągnięciami na kursach w college'u, zwykle oceną z pierwszego semestru, oceną na koniec kursu z pisania na pierwszym roku lub opinią nauczyciela na temat umiejętności pisania ucznia. Korelacje te są zwykle niskie do umiarkowanych.

Krytyka

Holistyczna punktacja pisarstwa niemal od samego początku spotykała się z negatywną krytyką. W latach siedemdziesiątych i osiemdziesiątych krytyka narastała.

  1. Koszt. W latach 80., kiedy egzaminy były często oceniane wyłącznie przez ludzi, trafna i wiarygodna całościowa ocena próbki pisma zajmowała więcej czasu, a tym samym więcej pieniędzy niż punktacja pozycji. Na przykład kosztował 0,75 USD za esej za pierwszy i 0,53 USD za drugi w programie testowym Georgia Regents w latach 1980-1981. Później, pod względem kosztów, holistyczne ocenianie prac przez ludzi mogłoby jeszcze mniej konkurować z testami przedmiotowymi ocenianymi maszynowo lub esejami ocenianymi maszynowo, które kosztują od około połowy do jednej czwartej kosztu punktacji ludzkiej.
  2. Diagnoza. Najczęstszym zarzutem dotyczącym holistycznej punktacji jest niedostatek dostarczanych informacji diagnostycznych. Wyniki „zaliczenia” — lub „3” w 4-, 6- lub 9-stopniowej skali — dostarczają niewiele konkretnych wskazówek dla ucznia, nauczyciela lub badacza. W egzaminach barier edukacyjnych holistyczna punktacja może służyć administratorom do lokalizowania uczniów, którzy nie zdali, ale niewiele służy nauczycielom, pomagając tym uczniom zdać za drugim podejściem. Konieczność wzmocnienia informacji diagnostycznej była powodem, dla którego w drugiej turze Krajowej Oceny Postępów w Edukacji (1973-1974) Komisja Edukacji Stanów Zjednoczonych uzupełniła punktację holistyczną o punktację podstawowych cech próbek pisma. Z tego samego powodu skłonił Międzynarodowy system testowania języka angielskiego , prowadzony przez British Council i Cambridge English Language Assessment dla osób mówiących i piszących w drugim języku, w celu przyjęcia „oceny profilu” w 1985 r.
  3. Rubryki . Jako z góry ustalona lista kontrolna kilku cech pisarskich, z których każda jest jednakowo skalowana na kilku poziomach osiągnięć, rubryka została skrytykowana, ponieważ jest uproszczona, ślepa na różnice kulturowe i rozwojowe oraz fałszywie założona. Kiedy grupę nauczycieli akademickich kompozycji zapytano o ich „kryteria oceny” pisania, wymienili nie 5 czy 6 kryteriów, ale 124. Chociaż rubryka zakłada, że ​​kryteria są od siebie niezależne, badania wykazały, że oceny, jakie czytelnicy przyznają jedno lub dwa kryteria mają wpływ na wyniki przyznawane innym kryteriom ( efekt halo). ). Z góry ustalone i równie cenione kryteria nie odpowiadają również rozwojowi młodych dorosłych pisarzy, który może być nierówny, nieuniwersalny i regresywny. Przede wszystkim ustandaryzowane rubryki proponują z góry określony wynik językowy, podczas gdy język nigdy nie jest określony, nigdy nie jest wolny od kontekstu . Rubryki wykorzystują „deterministyczne formuły do ​​przewidywania wyników dla złożonych systemów” - krytyka, która została skierowana do rubryk używanych do sumowania wyników w testach na dużą skalę, a także do formatywnej informacji zwrotnej w klasie.
  4. Dekontekstualizacja. Tradycyjna holistyczna punktacja może wymazać istotny kontekst komponowania, na przykład wpływ na różnych pisarzy odpowiadających w czasowym, improwizowanym szkicu na różne tematy i różne gatunki pisarskie. Z punktu widzenia retoryki kontrastywnej można także zatrzeć istotne różnice kulturowe pisarzy. Na przykład, gdy badacze z Międzynarodowego Stowarzyszenia ds. Oceny Osiągnięć Edukacyjnych próbowali stworzyć miary oceny esejów napisanych przez studentów z Finlandii, Korei i USA, odkryli, że „całościowa punktacja byłaby na początku skazana na niepowodzenie z powodu różnic w społecznościach”. Holistyczna punktacja — w szczególności punktacja oparta na cechach, z silnie kontrolowanym szkoleniem oceniających w celu osiągnięcia wysokiej wiarygodności oceniającego — również może lekceważyć ekologię oceniających. System punktacji tworzy zestaw czytelników sztucznie wypartych z ich naturalnej reakcji na czytanie przez narzucony konsensus. Takie obawy zachęciły instytucje, takie jak Ohio University, University of Louisville i Washington State University do oceny kompetencji pisania uczniów z teczki esejów napisanych na poprzednich zajęciach.
  5. Uczciwość. Chociaż holistyczna ocena pisarstwa była broniona jako bardziej sprawiedliwa dla mniejszości i pisarzy dwujęzycznych niż obiektywne testy, zebrano również dowody na to, że holistyczna punktacja ma swoje własne problemy z rzetelnością. Coaching był mniej dostępny dla kandydatów o niskich dochodach. Afroamerykańscy studenci mieli więcej problemów z częścią esejową testu CLAST na Florydzie. Podpowiedzi do eseju do testu oceny pisania CUNY nie były „uczciwe pod względem treści i wolne od kultury” i stwarzały więcej problemów dla pisarzy latynoskich i innych pisarzy w drugim języku. Educational Testing Service od dawna wykazuje troskę o rzetelność testów, chociaż obecnie badania nad niesprawiedliwymi wynikami holistycznej punktacji prawdopodobnie pozostają w tyle za intuicją praktyków i prawdopodobnie muszą zastosować bardziej dyskryminacyjną analizę statystyczną, aby udokumentować te wyniki.