Ocena wpływu

Ocena wpływu ocenia zmiany, które można przypisać konkretnej interwencji, takiej jak projekt, program lub polityka, zarówno te zamierzone, jak i najlepiej niezamierzone. W przeciwieństwie do monitorowania wyników, które sprawdza, czy cele zostały osiągnięte, ewaluacja wpływu jest skonstruowana tak, aby odpowiedzieć na pytanie: jak zmieniłyby się wyniki, takie jak dobre samopoczucie uczestników, gdyby interwencja nie została podjęta? Obejmuje to analizę kontrfaktyczną, czyli „porównanie między tym, co faktycznie się wydarzyło, a tym, co by się stało, gdyby nie interwencja”. Oceny wpływu mają na celu udzielenie odpowiedzi na pytania dotyczące przyczyn i skutków. Innymi słowy, szukają zmian w wynikach, które można bezpośrednio przypisać programowi.

Ocena wpływu pomaga ludziom odpowiedzieć na kluczowe pytania dotyczące tworzenia polityki opartej na dowodach: co działa, a co nie, gdzie, dlaczego i za ile? W ostatnich latach poświęca się temu coraz więcej uwagi w kształtowaniu polityki, zarówno w kontekście krajów rozwiniętych, jak i rozwijających się. Jest to ważny składnik arsenału do oceny oraz integralna część globalnych wysiłków na rzecz poprawy skuteczności udzielania pomocy i bardziej ogólnie wydatków publicznych na poprawę standardów życia. Pierwotnie bardziej zorientowany na ocenę programów sektora społecznego w krajach rozwijających się, zwłaszcza warunkowych transferów pieniężnych , ocena wpływu jest obecnie coraz częściej stosowana w innych obszarach, takich jak rolnictwo, energetyka i transport.

Projekty ewaluacji kontrfaktycznych

kontrfaktyczne analiza umożliwia ewaluatorom przypisanie przyczyny i skutku między interwencjami a wynikami. „Stan alternatywny” mierzy, co stałoby się z beneficjentami w przypadku braku interwencji, a wpływ szacuje się, porównując wyniki scenariuszy alternatywnych z wynikami zaobserwowanymi w ramach interwencji. Kluczowym wyzwaniem w ocenie wpływu jest to, że scenariusza alternatywnego nie można bezpośrednio zaobserwować i należy go przybliżyć w odniesieniu do grupy porównawczej. Istnieje szereg akceptowanych podejść do określania odpowiedniej grupy porównawczej do analizy kontrfaktycznej, przy użyciu prospektywnego (ex ante) lub retrospektywnego (ex post) projektu oceny. Oceny prospektywne rozpoczynają się na etapie projektowania interwencji, obejmując gromadzenie danych początkowych i końcowych od beneficjentów interwencji („grupa leczona”) i osób niebędących beneficjentami („grupa porównawcza”); mogą obejmować selekcję jednostek lub społeczności do grup terapeutycznych i porównawczych. Oceny retrospektywne są zwykle przeprowadzane po fazie wdrażania i mogą wykorzystywać istniejące dane ankietowe, chociaż najlepsze ewaluacje będą gromadzić dane jak najbardziej zbliżone do poziomu wyjściowego, aby zapewnić porównywalność grup interwencyjnych i porównawczych.

Istnieje pięć kluczowych zasad dotyczących trafności wewnętrznej (projekt badania) i trafności zewnętrznej (możliwość uogólnienia), które należy uwzględnić w rygorystycznych ocenach wpływu: czynniki zakłócające, błąd selekcji , efekty uboczne, zanieczyszczenie i heterogeniczność wpływu.

  • Zakłócenie pojawia się, gdy pewne czynniki, zazwyczaj odnoszące się do statusu społeczno-ekonomicznego, są skorelowane z narażeniem na interwencję i niezależnie od narażenia są przyczynowo związane z wynikiem zainteresowania. Czynniki zakłócające są zatem alternatywnymi wyjaśnieniami obserwowanego (prawdopodobnie fałszywego) związku między interwencją a wynikiem.
  • Błąd selekcji , szczególny przypadek zakłócenia, występuje, gdy uczestnicy interwencji są losowani nielosowo z populacji beneficjentów, a kryteria decydujące o selekcji są skorelowane z wynikami. Nieobserwowane czynniki , które są związane z dostępem do interwencji lub uczestnictwem w niej i są przyczynowo związane z wynikiem będącym przedmiotem zainteresowania, mogą prowadzić do fałszywego związku między interwencją a wynikiem, jeśli nie zostaną uwzględnione. Samoselekcja ma miejsce, gdy na przykład bardziej zdolne lub zorganizowane jednostki lub społeczności, które z większym prawdopodobieństwem osiągną lepsze wyniki w zakresie zainteresowania, są również bardziej skłonne do udziału w interwencji. Endogeniczna selekcja programów ma miejsce, gdy jednostki lub społeczności są wybierane do udziału, ponieważ uważa się, że istnieje większe prawdopodobieństwo, że skorzystają z interwencji. Ignorowanie czynników zakłócających może prowadzić do problemu pominiętego odchylenia zmiennej. W szczególnym przypadku błędu selekcji endogeniczność zmiennych selekcji może powodować błąd jednoczesności.
  • Przeniesienie (określane jako zarażanie w przypadku ewaluacji eksperymentalnych) ma miejsce, gdy interwencja dotyczy członków grupy porównawczej (kontrolnej).
  • Zanieczyszczenie ma miejsce, gdy członkowie grupy badanej i/lub porównawczej mają dostęp do innej interwencji, która również wpływa na wynik będący przedmiotem zainteresowania.
  • Heterogeniczność wpływu odnosi się do różnic w oddziaływaniu ze względu na typ beneficjenta i kontekst. Wysokiej jakości ewaluacje wpływu będą oceniać zakres, w jakim różne grupy (np. osoby znajdujące się w niekorzystnej sytuacji) odnoszą korzyści z interwencji, jak również potencjalny wpływ kontekstu na wpływ. Stopień, w jakim wyniki można uogólnić, określi przydatność wyciągniętych wniosków do interwencji w innych kontekstach.

Projekty ewaluacji wpływu są identyfikowane według rodzaju metod zastosowanych do wygenerowania scenariusza alternatywnego i można je ogólnie podzielić na trzy kategorie – projekty eksperymentalne, quasi-eksperymentalne i nieeksperymentalne – różniące się wykonalnością, kosztami, zaangażowaniem w fazie projektowania lub po fazie wdrażania interwencji i stopnia błędu selekcji. White (2006) i Ravallion (2008) omawiają alternatywne podejścia do oceny wpływu.

Podejścia eksperymentalne

W ramach ewaluacji eksperymentalnych grupy leczona i porównawcza są wybierane losowo i izolowane zarówno od interwencji, jak i od wszelkich interwencji, które mogą mieć wpływ na wynik będący przedmiotem zainteresowania. Te projekty oceny są określane jako randomizowane badania kontrolne (RCT). W ocenach eksperymentalnych grupę porównawczą nazywa się grupą kontrolną . Kiedy randomizacja jest przeprowadzana na wystarczająco dużej próbie bez zarażania interwencją, jedyną różnicą między grupami leczonymi a kontrolnymi jest to, że ta ostatnia nie otrzymuje interwencji. Badania losowe, w których próba do oceny jest wybierana losowo, nie powinny być mylone z eksperymentalnymi projektami oceny, które wymagają losowego przydziału leczenia.

Podejście eksperymentalne jest często uważane za „złoty standard” ewaluacji. Jest to jedyny schemat ewaluacji, który może definitywnie wyjaśnić błąd selekcji w wykazaniu związku przyczynowego między interwencją a wynikami. Randomizacja i izolacja od interwencji mogą być niepraktyczne w dziedzinie polityki społecznej i mogą być etycznie trudne do obrony, chociaż mogą istnieć możliwości wykorzystania naturalnych eksperymentów. Bamberger i White (2007) zwracają uwagę na niektóre ograniczenia stosowania RCT do interwencji rozwojowych. Krytyki metodologicznej dokonał Scriven (2008) ze względu na uprzedzenia wprowadzone, ponieważ interwencje społeczne nie mogą być w pełni zaślepieni , a Deaton (2009) wskazał, że w praktyce analiza RCT opiera się na podejściach opartych na regresji, których starają się unikać, a zatem podlegają tym samym potencjalnym stronniczości. Inne problemy obejmują często heterogeniczne i zmieniające się konteksty interwencji, wyzwania logistyczne i praktyczne, trudności z monitorowaniem świadczenia usług, dostęp do interwencji przez grupę porównawczą oraz zmiany kryteriów wyboru i/lub interwencji w czasie. Dlatego szacuje się, że RCT mają zastosowanie tylko do 5 procent finansowania rozwoju.

Randomizowane badania kontrolne (RCT)

RCT to badania stosowane do pomiaru skuteczności nowej interwencji. Jest mało prawdopodobne, aby samodzielnie udowodniły związek przyczynowy, jednak randomizacja zmniejsza błąd systematyczny, zapewniając jednocześnie narzędzie do badania związków przyczynowo-skutkowych. RCT opierają się na losowym przydziale, co oznacza, że ​​ocena ta prawie zawsze musi być zaprojektowana ex ante , ponieważ rzadko zdarza się, aby naturalny przydział projektu był przypadkowy. Podczas projektowania RCT należy zadać pięć kluczowych pytań: jakie leczenie jest testowane, ile będzie ramion leczenia, jaka będzie jednostka przydzielenia, jak duża próbka jest potrzebna, w jaki sposób test zostać zrandomizowany. Dobrze przeprowadzony RCT da wiarygodne oszacowanie średniego efektu leczenia w ramach jednej określonej populacji lub jednostki przydziału. Wadą RCT jest „problem transportu”, podkreślający, że to, co działa w jednej populacji, niekoniecznie działa w innej populacji, co oznacza, że ​​średni efekt leczenia nie ma zastosowania w różnych jednostkach przypisania.

Naturalne eksperymenty

Wykorzystywane są naturalne eksperymenty, ponieważ metody te rozluźniają nieodłączne napięcie niekontrolowanego pola i podejścia do kontrolowanego zbierania danych laboratoryjnych. Eksperymenty naturalne wykorzystują zdarzenia pozostające poza kontrolą badaczy i badanych, aby zająć się kilkoma zagrożeniami dla trafności wewnętrznej, minimalizując ryzyko pomieszania elementów, poświęcając jednocześnie kilka cech danych terenowych, takich jak bardziej naturalne zakresy efektów leczenia i obecność organicznie ukształtowany kontekst. Głównym problemem związanym z naturalnymi eksperymentami jest kwestia powtarzalności. Prawidłowo opisana i powtórzona praca laboratoryjna powinna dać podobne wyniki. Ze względu na wyjątkowość eksperymentów naturalnych replikacja często ogranicza się do analizy alternatywnych danych z podobnego zdarzenia.

Podejścia nieeksperymentalne

Projekt quasi-eksperymentalny

quasi-eksperymentalne mogą wyeliminować błąd wynikający z selekcji obserwowalnych i, jeśli dostępne są dane panelowe, niezmiennych w czasie nieobserwowalnych. Metody quasi-eksperymentalne obejmują dopasowywanie, różnicowanie, zmienne instrumentalne i podejście potokowe; są one zwykle przeprowadzane za pomocą wielowymiarowej analizy regresji .

Jeśli cechy selekcji są znane i obserwowane, można je kontrolować, aby usunąć błąd. Dopasowanie polega na porównaniu uczestników programu z osobami nieuczestniczącymi w oparciu o obserwowane cechy selekcji. Dopasowywanie wyników skłonności (PSM) wykorzystuje model statystyczny do obliczania prawdopodobieństwa uczestnictwa na podstawie zestawu obserwowalnych cech i dopasowuje uczestników i osoby nieuczestniczące o podobnych wynikach prawdopodobieństwa. Projekt nieciągłości regresji wykorzystuje regułę decyzyjną dotyczącą tego, kto wykonuje, a kto nie otrzymuje interwencji, aby porównać wyniki dla tych, którzy znajdują się po obu stronach tego odcięcia.

Różnica w różnicach lub podwójne różnice, które wykorzystują dane zebrane na linii podstawowej i końcowej dla grup interwencyjnych i porównawczych, mogą być wykorzystane do wyjaśnienia błędu selekcji przy założeniu, że nieobserwowalne czynniki determinujące selekcję są stałe w czasie (niezmienne w czasie).

zmiennych instrumentalnych uwzględnia błąd selekcji poprzez modelowanie uczestnictwa przy użyciu czynników („instrumentów”), które są skorelowane z wyborem, ale nie z wynikiem, izolując w ten sposób aspekty uczestnictwa w programie, które można traktować jako egzogeniczne.

Podejście rurociągowe ( projekt klina schodkowego ) wykorzystuje jako grupę porównawczą beneficjentów już wybranych do udziału w projekcie na późniejszym etapie. Zakłada się, że ponieważ zostali oni wybrani do interwencji w przyszłości, są podobni do grupy leczonej, a zatem porównywalni pod względem zmiennych wynikowych będących przedmiotem zainteresowania. Jednak w praktyce nie można zagwarantować, że grupy badane i grupy porównawcze są porównywalne i w celu zweryfikowania porównywalności konieczne będzie zastosowanie pewnej metody dopasowywania.

Projekt nieeksperymentalny

Nieeksperymentalne oceny wpływu są tak zwane, ponieważ nie obejmują grupy porównawczej, która nie ma dostępu do interwencji. Metodą stosowaną w ewaluacji nieeksperymentalnej jest porównanie grup interwencyjnych przed i po realizacji interwencji. Interwencja przerwała szeregi czasowe Oceny (ITS) wymagają wielu punktów danych dotyczących leczonych osób przed i po interwencji, podczas gdy projekty przed i po (lub przed testem po teście) wymagają po prostu jednego punktu danych przed i po. Analizy posttestowe obejmują dane po interwencji tylko z grupy interwencyjnej. Projekty nieeksperymentalne są najsłabszymi projektami ewaluacji, ponieważ aby przekonująco pokazać związek przyczynowy między interwencją a wynikami, ewaluacja musi wykazać, że wszelkie prawdopodobne alternatywne wyjaśnienia wyników są nieistotne. Istnieją jednak zastosowania, dla których ten projekt jest istotny, na przykład przy obliczaniu oszczędności czasu dzięki interwencji poprawiającej dostęp do udogodnień. Ponadto mogą zaistnieć przypadki, w których projekty nieeksperymentalne są jedynym wykonalnym projektem oceny wpływu, na przykład programy powszechnie wdrażane lub reformy polityki krajowej, w których prawdopodobnie nie istnieją izolowane grupy porównawcze.

Błędy w szacowaniu efektów programu

Randomizowane eksperymenty terenowe są najsilniejszymi projektami badawczymi do oceny wpływu programu. Mówi się, że ten konkretny projekt badawczy jest na ogół projektem z wyboru, gdy jest wykonalny, ponieważ pozwala na rzetelne i dokładne oszacowanie rzeczywistych efektów programu (Rossi, Lipsey i Freeman, 2004).

To powiedziawszy, randomizowane eksperymenty terenowe nie zawsze są wykonalne iw takich sytuacjach istnieją alternatywne projekty badawcze, które są do dyspozycji oceniającego. Główny problem polega jednak na tym, że niezależnie od tego, który projekt wybierze ewaluator, jest on podatny na wspólny problem: niezależnie od tego, jak dobrze przemyślany lub dobrze wdrożony jest projekt, każdy projekt podlega stronniczym szacunkom efektów programu. Te uprzedzenia odgrywają rolę wyolbrzymiania lub pomniejszania efektów programu. Nie tylko to, ale kierunek, w jakim może przybrać stronniczość, zwykle nie może być znany z góry (Rossi i in., 2004). Te uprzedzenia wpływają na interesy interesariuszy. Co więcej, możliwe jest, że uczestnicy programu są w niekorzystnej sytuacji, jeśli stronniczość jest w taki sposób, że przyczynia się do tego, że nieskuteczny lub szkodliwy program wydaje się skuteczny. Istnieje również możliwość, że stronniczość może sprawić, że skuteczny program będzie wydawał się nieskuteczny lub nawet szkodliwy. Może to spowodować, że osiągnięcia programu będą wydawać się małe lub nawet nieistotne, co zmusi personel, a nawet spowoduje, że sponsorzy programu zmniejszą lub wyeliminują finansowanie programu (Rossi i in., 2004).

Można śmiało powiedzieć, że jeśli nieodpowiedni projekt prowadzi do stronniczości, interesariusze, którzy są w dużej mierze odpowiedzialni za finansowanie programu, będą najbardziej zainteresowani; wyniki ewaluacji pomagają interesariuszom zdecydować, czy kontynuować finansowanie programu, ponieważ ostateczna decyzja należy do fundatorów i sponsorów. Nie tylko interesariusze są najbardziej zainteresowani, ale ci, którzy biorą udział w programie lub ci, na których program ma pozytywnie wpłynąć, będą dotknięci wybranym projektem i wynikami tego wybranego projektu. Dlatego troską ewaluatora jest zminimalizowanie błędu systematycznego w szacowaniu efektów programu (Rossi i in., 2004).

Błędy są zwykle widoczne w dwóch sytuacjach: gdy pomiar wyniku z ekspozycją programu lub oszacowanie, jaki byłby wynik bez ekspozycji programu, jest wyższy lub niższy niż odpowiadająca jej „prawdziwa” wartość (p267). Niestety, nie wszystkie formy uprzedzeń, które mogą zagrozić ocenie skutków, są oczywiste (Rossi i in., 2004).

Najbardziej powszechną formą projektowania ewaluacji wpływu jest porównanie dwóch grup osób lub innych jednostek, grupy interwencyjnej, która otrzymuje program i grupy kontrolnej, która go nie otrzymuje. Oszacowanie efektu programu jest następnie oparte na różnicy między grupami na podstawie odpowiedniej miary wyniku (Rossi i in., 2004). Losowe przyporządkowanie osób do grup programowych i kontrolnych pozwala przyjąć założenie o ciągłej równoważności. Porównania grupowe, które nie zostały utworzone w drodze randomizacji, są znane jako nierównoważne projekty porównawcze (Rossi i in., 2004).

Błąd selekcji

Gdy nie ma założenia równoważności, różnica w wynikach między grupami, która wystąpiłaby niezależnie, tworzy formę błędu w oszacowaniu efektów programu. Jest to znane jako błąd selekcji (Rossi i in., 2004). Stwarza to zagrożenie dla wiarygodności oszacowania efektu programu w każdej ocenie wpływu przy użyciu nierównoważnego schematu porównania grup i pojawia się w sytuacjach, gdy jakiś proces odpowiedzialny za wpływy, które nie są w pełni znane, wybiera, które osoby będą w której grupie zamiast przydział do grup jest ustalany przez czysty przypadek (Rossi i in., 2004). Może to wynikać z samoselekcji uczestnika lub z umiejscowienia programu (błąd umiejscowienia).

Błąd selekcji może wystąpić w wyniku naturalnych lub celowych procesów, które powodują utratę danych wynikowych dla członków grup interwencyjnych i kontrolnych, które zostały już utworzone. Jest to znane jako wyniszczenie i może nastąpić na dwa sposoby (Rossi i in., 2004): cele, które wypadły z grupy interwencyjnej lub kontrolnej, nie mogą zostać osiągnięte lub cele odmawiają współpracy w pomiarze wyników. Zakłada się, że ścieralność różnicowa jest wynikiem czegoś innego niż wyraźnego procesu losowego (Rossi i in., 2004). Oznacza to, że „nie można zakładać, że osoby z grupy interwencyjnej, której brakuje danych dotyczących wyniku, mają takie same cechy istotne dla wyniku, jak osoby z grupy kontrolnej, której brakuje danych dotyczących wyniku” (Rossi i in., 2004, s.271) . Jednak projekty losowego przydziału nie są bezpieczne przed błędem selekcji, który jest indukowany przez ścieranie (Rossi i in., 2004).

Inne formy uprzedzeń

Istnieją inne czynniki, które mogą być odpowiedzialne za stronniczość wyników oceny skutków. Na ogół mają one związek z wydarzeniami lub doświadczeniami innymi niż otrzymanie programu, które mają miejsce podczas interwencji. Te uprzedzenia obejmują świeckie trendy, zakłócające wydarzenia i dojrzewanie (Rossi i in., 2004).

Świeckie trendy lub świecki dryf

Trendy sekularne można zdefiniować jako stosunkowo długoterminowe trendy w społeczności, regionie lub kraju. Są one również określane jako dryf sekularny i mogą powodować zmiany, które wzmacniają lub maskują widoczne efekty interwencji (Rossi i in., 2004). Na przykład, gdy wskaźnik urodzeń w danej społeczności spada, program mający na celu zmniejszenie dzietności może okazać się skuteczny ze względu na uprzedzenia wynikające z tej tendencji spadkowej (Rossi i in., 2004, s.273).

Zakłócające zdarzenia

Wydarzenia zakłócające są podobne do świeckich trendów; w tym przypadku to zdarzenia krótkoterminowe mogą spowodować zmiany, które mogą wprowadzić błąd w szacunkach efektu programu, takie jak przerwa w dostawie prądu zakłócająca komunikację lub utrudniająca dostarczanie suplementów diety, może zakłócać program żywieniowy (Rossi i in., 2004, s. 273).

Dojrzewanie

Ocena wpływu musi uwzględniać fakt, że naturalne procesy dojrzewania i rozwoju mogą powodować znaczne zmiany niezależnie od programu. Uwzględnienie tych zmian w szacunkach efektów programu spowodowałoby błędne oszacowania. Przykładem takiej formy uprzedzeń może być program poprawy profilaktycznych praktyk zdrowotnych wśród dorosłych, który może wydawać się nieskuteczny, ponieważ stan zdrowia generalnie pogarsza się wraz z wiekiem (Rossi i in., 2004, s.273).

„Staranne utrzymywanie porównywalnych okoliczności dla grup programowych i kontrolnych między losowym przydziałem a pomiarem wyników powinno zapobiegać stronniczości wynikającej z wpływu innych zróżnicowanych doświadczeń lub zdarzeń na grupy. Jeśli którykolwiek z tych warunków jest nieobecny w projekcie, istnieje możliwość wystąpienia stronniczości w oszacowania efektu programu” (Rossi i in., 2004, s.274).

Metody szacowania

Metody estymacji są zasadniczo zgodne z projektami ewaluacji. Różne projekty wymagają różnych metod szacowania, aby zmierzyć zmiany dobrostanu w stosunku do scenariusza alternatywnego. W ewaluacji eksperymentalnej i quasi-eksperymentalnej szacowany wpływ interwencji oblicza się jako różnicę w średnich wynikach między grupą leczoną (osobami otrzymującymi interwencję) a grupą kontrolną lub porównawczą (osobami, które jej nie podjęły). Ta metoda jest również nazywana randomizowanymi próbami kontrolnymi (RCT). Według wywiadu z Jimem Rough, byłym przedstawicielem American Evaluation Association, w magazynie D+C Development and Cooperation , ta metoda nie działa w przypadku złożonych, wielowarstwowych spraw. Estymator pojedynczej różnicy porównuje średnie wyniki na linii końcowej i jest ważny, gdy grupy leczona i kontrolna mają takie same wartości wyników na linii podstawowej. Estymator różnicy w różnicy (lub podwójnej różnicy) oblicza różnicę w zmianie wyniku w czasie dla grup leczonych i grup porównawczych, wykorzystując w ten sposób dane zebrane na początku badania dla obu grup i drugą rundę danych zebranych na końcu badania, po wdrożeniu interwencji, co może nastąpić wiele lat później.

Oceny wpływu, które mają na celu porównanie średnich wyników w grupie leczonej, niezależnie od udziału beneficjenta (określanego również jako „zgodność” lub „przestrzeganie”), z wynikami w grupie porównawczej nazywane są analizami zamiaru leczenia (ITT) . Oceny wpływu, które porównują wyniki wśród beneficjentów, którzy przestrzegają lub przestrzegają interwencji w grupie leczonej, z wynikami w grupie kontrolnej, nazywane są analizami leczenia na leczeniu (TOT). Dlatego ITT zapewnia dolną granicę oszacowania wpływu, ale prawdopodobnie ma większe znaczenie polityczne niż TOT w analizie programów wolontariackich.

Debaty

Chociaż istnieje zgoda co do znaczenia ewaluacji wpływu i pojawia się konsensus co do stosowania alternatywnych metod ewaluacji, w ostatnich latach toczyła się również szeroko zakrojona debata zarówno na temat definicji ewaluacji wpływu, jak i stosowania odpowiednich metod (zob. White 2009). dla przeglądu).

Definicje

Międzynarodowa Inicjatywa na rzecz Oceny Wpływu (3ie) definiuje rygorystyczne oceny wpływu jako: „analizy, które mierzą zmianę netto w wynikach dla określonej grupy ludzi, które można przypisać konkretnemu programowi przy użyciu najlepszej dostępnej metodologii, wykonalnej i odpowiedniej do oceny badanego zagadnienia i do konkretnego kontekstu”.

Według Inicjatywy DIME Banku Światowego „Ewaluacje wpływu porównują wyniki programu ze scenariuszem alternatywnym, który pokazuje, co stałoby się z beneficjentami bez programu. W przeciwieństwie do innych form ewaluacji, pozwalają one na przypisanie zaobserwowanych zmian w wynikach do programu oceniane przez następujące projekty eksperymentalne i quasi-eksperymentalne”.

Podobnie, według Agencji Ochrony Środowiska Stanów Zjednoczonych, ocena wpływu jest formą oceny, która ocenia efekt netto programu poprzez porównanie wyników programu z szacunkami tego, co by się stało, gdyby nie było programu.

Według Independent Evaluation Group (IEG) Banku Światowego ocena wpływu to systematyczna identyfikacja pozytywnego lub negatywnego wpływu, zamierzonego lub niezamierzonego, na poszczególne gospodarstwa domowe, instytucje i środowisko, wywołanego przez dane działanie rozwojowe, takie jak program lub projekt.

Ewaluacja wpływu była różnie definiowana w ciągu ostatnich kilku dekad. Inne interpretacje oceny wpływu obejmują:

  • Ewaluacja, która skupia się na wpływie interwencji na ostateczne wyniki dobrostanu, a nie tylko na produktach projektu, lub ewaluacja procesu, która koncentruje się na wdrażaniu;
  • ewaluacja przeprowadzona jakiś czas (pięć do dziesięciu lat) po zakończeniu interwencji, aby dać czas na pojawienie się wpływu; I
  • Ocena uwzględniająca wszystkie interwencje w ramach danego sektora lub obszaru geograficznego.

Inni autorzy dokonują rozróżnienia między „oceną wpływu” a „oceną wpływu”. „Ocena wpływu” wykorzystuje techniki empiryczne do oszacowania skutków interwencji i ich istotności statystycznej, podczas gdy „ocena wpływu” obejmuje szerszy zestaw metod, w tym symulacje strukturalne i inne podejścia, których nie można sprawdzić pod kątem istotności statystycznej.

Powszechne definicje „wpływu” stosowane w ewaluacji ogólnie odnoszą się do ogółu długoterminowych konsekwencji związanych z interwencją w zakresie jakości życia. Na przykład Komitet Pomocy Rozwojowej Organizacji Współpracy Gospodarczej i Rozwoju (OECD-DAC) definiuje wpływ jako „pozytywne i negatywne, pierwotne i wtórne skutki długoterminowe wywołane przez interwencję rozwojową, bezpośrednio lub pośrednio, zamierzoną lub niezamierzoną”. Szereg agencji międzynarodowych również przyjęło tę definicję wpływu. Na przykład UNICEF definiuje wpływ jako „Długoterminowe wyniki programu - techniczne, ekonomiczne, społeczno-kulturowe, instytucjonalne, środowiskowe lub inne - zamierzone lub niezamierzone. Zamierzony wpływ powinien odpowiadać celowi programu”. Podobnie Evaluationwiki.org definiuje ewaluację wpływu jako ewaluację, która wykracza poza bezpośrednie wyniki polityki, instrukcji lub usług w celu zidentyfikowania długoterminowych, jak również niezamierzonych efektów programu.

Z technicznego punktu widzenia ewaluację można przeprowadzić w celu oceny „wpływu” zgodnie z definicją w tym miejscu bez odniesienia do scenariusza alternatywnego. Jednak znaczna część istniejącej literatury (np. wytyczne NONIE w sprawie oceny wpływu przyjmuje definicję wpływu OECD-DAC, odnosząc się jednocześnie do technik stosowanych do przypisania wpływu interwencji, które z konieczności opierają się na analizie scenariusza alternatywnego.

Tym, czego brakuje w ewaluacji terminu „wpływ”, jest sposób, w jaki „wpływ” objawia się w perspektywie długoterminowej. Na przykład większość planów „ramy logicznej” monitorowania i ewaluacji ma nakłady-wyniki-wyniki i... wpływy. Podczas gdy pierwsze trzy pojawiają się w trakcie trwania projektu, wpływ trwa znacznie dłużej. Na przykład, w 5-letnim projekcie rolniczym, nasiona są wkładem, rolnicy przeszkoleni w używaniu ich naszym produktem, zmiany w plonach w wyniku prawidłowego sadzenia nasion w wyniku i bardziej trwałe zabezpieczenie żywnościowe rodzin w czasie jest uderzenie. Takie ewaluacje poprojektowe są bardzo rzadkie. Nazywa się je również ewaluacjami ex post lub tworzymy termin ewaluacje trwałego wpływu . Podczas gdy setki tysięcy dokumentów ich wymagają, darczyńcy rzadko mają elastyczność finansowania – lub zainteresowanie – aby powrócić, aby zobaczyć, jak trwałe i trwałe pozostały nasze interwencje po zamknięciu projektu, po wycofaniu środków. Istnieje wiele lekcji do nauczenia się w zakresie projektowania, wdrażania, M&O oraz tego, jak wspierać odpowiedzialność kraju .

Debaty metodologiczne

W kręgach akademickich toczy się intensywna debata na temat odpowiednich metodologii ewaluacji wpływu, pomiędzy zwolennikami metod eksperymentalnych z jednej strony, a zwolennikami bardziej ogólnych metodologii z drugiej. William Easterly nazwał to „wojną domową w ekonomii rozwoju” . Zwolennicy projektów eksperymentalnych, czasami określani jako „randomiści”, argumentują, że randomizacja jest jedynym sposobem na zapewnienie uwzględnienia nieobserwowalnego błędu selekcji, i że budowanie marnej eksperymentalnej bazy dowodowej powinno być priorytetem. Z kolei inni twierdzą, że losowe przydzielanie rzadko jest odpowiednie dla interwencji rozwojowych, a nawet jeśli tak jest, eksperymenty dostarczają nam informacji o wynikach konkretnej interwencji zastosowanej w określonym kontekście i niewiele mają znaczenia zewnętrznego. Ze strony organów oceniających i innych spotkała się krytyka, że ​​niektórzy darczyńcy i pracownicy naukowi przywiązują zbyt dużą wagę do preferowanych metod oceny wpływu, co w rzeczywistości może utrudniać uczenie się i odpowiedzialność. Ponadto toczyła się debata na temat właściwej roli metod jakościowych w ewaluacjach wpływu.

Ocena wpływu oparta na teorii

Chociaż wiedza na temat skuteczności jest niezbędna, ważne jest również zrozumienie przyczyn skuteczności i okoliczności, w których prawdopodobne jest powtórzenie wyników. W przeciwieństwie do metod ewaluacji wpływu opartych na „czarnej skrzynce”, które przedstawiają jedynie średnie różnice w wynikach między grupami leczonymi i porównawczymi, ewaluacja wpływu oparta na teorii obejmuje mapowanie łańcucha przyczynowego od danych wejściowych do wyników i wpływu oraz testowanie leżących u ich podstaw założeń. Większość interwencji w obszarze porządku publicznego ma charakter dobrowolny, a nie przymusowy (prawnie wymagany). Ponadto interwencje są często bardziej aktywne niż bierne i wymagają większego niż mniejszego udziału beneficjentów, a zatem zmiany zachowań jako warunku wstępnego skuteczności. Polityka publiczna odniesie zatem sukces w takim stopniu, w jakim ludzie będą zachęcani do korzystnej zmiany swojego zachowania. Podejście oparte na teorii umożliwia decydentom zrozumienie przyczyn różnych poziomów uczestnictwa w programie (określanych jako „zgodność” lub „przestrzeganie”) oraz procesów determinujących zmianę zachowań. Podejścia oparte na teorii wykorzystują gromadzenie danych zarówno ilościowych, jak i jakościowych, a te ostatnie mogą być szczególnie przydatne w zrozumieniu przyczyn zgodności, a tym samym tego, czy i jak interwencja może zostać powtórzona w innych warunkach. Metody zbierania danych jakościowych obejmują grupy fokusowe, wywiady pogłębione, partycypacyjną ocenę obszarów wiejskich (PRA) i wizyty w terenie, a także czytanie literatury antropologicznej i politycznej.

White (2009b) opowiada się za szerszym zastosowaniem podejścia teoretycznego do ewaluacji wpływu jako sposobu na poprawę adekwatności ewaluacji wpływu dla polityki, przedstawiając sześć kluczowych zasad podejścia opartego na teorii:

  1. Nakreśl łańcuch przyczynowy (teoria programu), który wyjaśnia, w jaki sposób interwencja ma doprowadzić do zamierzonych rezultatów, i zbierz dane, aby przetestować podstawowe założenia dotyczące powiązań przyczynowych.
  2. Zrozumienie kontekstu, w tym kontekstu społecznego, politycznego i gospodarczego interwencji.
  3. Przewiduj heterogeniczność, aby pomóc w identyfikacji podgrup i dostosowaniu wielkości próby w celu uwzględnienia poziomów dezagregacji, które mają być użyte w analizie.
  4. Rygorystyczna ocena wpływu przy użyciu wiarygodnego scenariusza alternatywnego (jak omówiono powyżej).
  5. Rygorystyczna analiza faktograficzna powiązań w łańcuchu przyczynowym.
  6. Użyj metod mieszanych (połączenie metod ilościowych i jakościowych).

Przykłady

Podczas gdy eksperymentalne metodologie oceny wpływu były stosowane do oceny interwencji żywieniowych, wodnych i sanitarnych w krajach rozwijających się od lat 80. XX wieku, pierwszym i najbardziej znanym zastosowaniem metod eksperymentalnych w programie rozwoju na dużą skalę jest ocena warunkowego transferu pieniężnego ( CCT) program Progresa (obecnie nazywany Oportunidades ) w Meksyku, w którym zbadano szereg wyników rozwojowych, w tym naukę w szkole, wskaźniki szczepień i pracę dzieci. Od tego czasu programy CCT zostały wdrożone przez wiele rządów w Ameryce Łacińskiej i innych krajach, a raport opublikowany przez Bank Światowy w lutym 2009 r. analizuje wpływ CCT w dwudziestu krajach.

Niedawno ocena wpływu została zastosowana do szeregu interwencji w sektorach społecznym i produkcyjnym. 3ie uruchomiło internetową bazę danych ocen wpływu, obejmującą badania przeprowadzone w krajach o niskich i średnich dochodach. Inne organizacje publikujące oceny wpływu to Innovations for Poverty Action , DIME Initiative Banku Światowego i NONIE . Grupa IEG Banku Światowego systematycznie oceniała i podsumowywała doświadczenia dziesięciu ewaluacji wpływu programów rozwojowych w różnych sektorach przeprowadzonych w ciągu ostatnich 20 lat.

Organizacje promujące ocenę wpływu interwencji rozwojowych

W 2006 r. Grupa Robocza ds. Luki w Ocenie opowiadała się za poważną luką w dowodach dotyczących interwencji rozwojowych, a w szczególności za powołaniem niezależnego organu w celu wypełnienia luki poprzez finansowanie i opowiadanie się za rygorystyczną oceną wpływu na osoby o niskich i średnich dochodach Państwa. Międzynarodowa Inicjatywa na rzecz Oceny Wpływu (3ie) została utworzona w odpowiedzi na ten raport. 3ie stara się poprawić życie biednych ludzi w krajach o niskich i średnich dochodach, dostarczając i podsumowując dowody na to, co działa, kiedy, dlaczego i za ile. 3ie prowadzi program dotacji, finansując badania wpływu w krajach o niskich i średnich dochodach oraz syntetyczne przeglądy istniejących dowodów aktualizowane w miarę pojawiania się nowych dowodów, a także wspiera ocenę wpływu jakości poprzez swoje usługi zapewniania jakości.

Inną inicjatywą poświęconą ocenie skutków jest Komitet ds. Oceny Zrównoważonego Rozwoju (COSA) . COSA to globalne konsorcjum instytucji non-profit, działające we współpracy z Międzynarodowym Instytutem Zrównoważonego Rozwoju (IISD), Sustainable Commodity Initiative , Konferencją Narodów Zjednoczonych ds. Handlu i Rozwoju (UNCTAD) oraz Centrum Handlu Międzynarodowego ONZ (ITC). COSA opracowuje i stosuje niezależne narzędzie pomiarowe do analizy różnych skutków społecznych, środowiskowych i ekonomicznych praktyk rolniczych, w szczególności tych związanych z wdrażaniem określonych programów zrównoważonego rozwoju (Organic, Fairtrade itp.). Celem inicjatywy jest ustanowienie globalnych wskaźników i narzędzi pomiarowych, które rolnicy, decydenci polityczni i przemysł mogą wykorzystać do zrozumienia i poprawy zrównoważonego rozwoju w różnych uprawach lub sektorach rolnictwa. COSA ma to ułatwić, umożliwiając im dokładne obliczenie względnych kosztów i korzyści związanych z zaangażowaniem się w dowolną inicjatywę na rzecz zrównoważonego rozwoju.

Utworzono szereg dodatkowych organizacji w celu promowania oceny wpływu na całym świecie, w tym Innovations for Poverty Action , Strategic Impact Evaluation Fund (SIEF) Banku Światowego , Inicjatywa Banku Światowego ds. Oceny Wpływu na Rozwój (DIME), Institutional Learning and Change (ILAC) Inicjatywa CGIAR i Sieci Sieci ds. Oceny Wpływu (NONIE) .

Systematyczne przeglądy dowodów wpływu

Szereg organizacji pracuje nad koordynacją tworzenia przeglądów systematycznych . Przeglądy systematyczne mają na celu zlikwidowanie przepaści między badaniami a polityką poprzez ocenę zakresu istniejących dowodów na określony temat i przedstawienie informacji w przystępnej formie. Podobnie jak rygorystyczne oceny wpływu, są one opracowywane na podstawie protokołu badania, który określa a priori kryteria włączenia do badania, wyszukiwania i metody syntezy. Przeglądy systematyczne obejmują pięć kluczowych etapów: określenie interwencji, populacji, wyników i projektów badań, które należy uwzględnić; wyszukiwania w celu zidentyfikowania opublikowanej i nieopublikowanej literatury oraz zastosowania kryteriów włączenia do badania (dotyczących interwencji, populacji, wyników i projektu badania), jak określono w protokole badania; kodowanie informacji z badań; przedstawienie szacunków ilościowych dotyczących skuteczności interwencji z wykorzystaniem powierzchni leśnych oraz, w przypadku gdy interwencje zostaną określone jako odpowiednio jednorodne, obliczenie zbiorczego oszacowania sumarycznego za pomocą metaanalizy; wreszcie przeglądy systematyczne powinny być okresowo aktualizowane w miarę pojawiania się nowych dowodów. Przeglądy systematyczne mogą również obejmować syntezę informacji jakościowych, na przykład odnoszących się do barier lub czynników ułatwiających skuteczność interwencji.

Zobacz też

  1. ^ Grupa Banku Światowego ds. Ubóstwa ds. Oceny Wpływu , dostęp 6 stycznia 2008 r
  2. ^ „White, H. (2006) Ocena wpływu: doświadczenie niezależnej grupy oceniającej Banku Światowego, Bank Światowy, Waszyngton, DC, s. 3” (PDF ) . Zarchiwizowane od oryginału (PDF) w dniu 19.02.2018 r . Źródło 2010-01-07 .
  3. ^ „Gertler, Martinez, Premand, Rawlings i Vermeersch (2011) Ocena wpływu w praktyce, Waszyngton, DC: Bank Światowy” . Zarchiwizowane od oryginału w dniu 2011-07-17 . Źródło 2010-12-15 .
  4. ^ „Zaloguj się” (PDF) . Źródło 16 stycznia 2017 r .
  5. ^ „Zaloguj się” (PDF) . Źródło 16 stycznia 2017 r .
  6. ^ a b „White, H. (2006) Ocena wpływu: doświadczenie niezależnej grupy oceniającej Banku Światowego, Bank Światowy, Waszyngton, DC” (PDF) . Zarchiwizowane od oryginału (PDF) w dniu 19.02.2018 r . Źródło 2010-01-07 .
  7. ^ Ravallion, M. (2008) Ocena programów walki z ubóstwem
  8. ^ a b Martin, Ravallion (1 stycznia 2009). „Czy Randomiści powinni rządzić?” . 6 (2): 1–5 . Pobrano 16 stycznia 2017 r. – przez RePEc – POMYSŁY. {{ cite journal }} : Cite journal wymaga |journal= ( pomoc )
  9. ^ a b Bamberger, M. and White, H. (2007) Korzystanie z silnych projektów oceny w krajach rozwijających się: doświadczenie i wyzwania, Journal of MultiDisciplinary Evaluation , tom 4, numer 8, 58-73
  10. ^ Scriven (2008) Summative Evaluation of RCT Methodology: & An Alternative Approach to Causal Research, Journal of MultiDisciplinary Evaluation , tom 5, numer 9, 11-24
  11. ^   Deaton, Angus (1 stycznia 2009). „Instrumenty rozwoju: randomizacja w tropikach i poszukiwanie nieuchwytnych kluczy do rozwoju gospodarczego”. SSRN 1335715 . {{ cite journal }} : Cite journal wymaga |journal= ( pomoc )
  12. Bibliografia     _ Locascio, Joseph J. (grudzień 2018). „Randomizowane badania kontrolowane - złoty standard badań nad skutecznością” . BJOG: Międzynarodowy Dziennik Położnictwa i Ginekologii . 125 (13): 1716. doi : 10.1111/1471-0528.15199 . ISSN 1470-0328 . PMC 6235704 . PMID 29916205 .
  13. ^ ab White, Howard   (8 marca 2013). „Wprowadzenie do wykorzystania randomizowanych badań kontrolnych do oceny interwencji rozwojowych” . Dziennik skuteczności rozwoju . 5 : 30–49. doi : 10.1080/19439342.2013.764652 . S2CID 51812043 .
  14. ^ ab Deaton , Angus; Cartwright, Nancy (2016-11-09). „Ograniczenia badań z randomizacją” . VoxEU.org . Źródło 2020-10-26 .
  15. ^ abc Roe , Brian   E.; Wystarczy, David R. (grudzień 2009). „Wewnętrzna i zewnętrzna trafność w badaniach ekonomicznych: kompromisy między eksperymentami, eksperymentami polowymi, eksperymentami naturalnymi i danymi terenowymi” . American Journal of Agricultural Economics . 91 (5): 1266-1271. doi : 10.1111/j.1467-8276.2009.01295.x . ISSN 0002-9092 .
  16. ^ ab Biały   , Howard; Raitzer, Dawid (2017). Ocena wpływu interwencji rozwojowych: praktyczny przewodnik (PDF) . Manila: Azjatycki Bank Rozwoju. ISBN 978-92-9261-059-3 .
  17. ^ Rugh, Jim (22 czerwca 2012). „Młotek w poszukiwaniu gwoździ” . Rozwój i współpraca D+C . 2012 (7): 300.
  18. ^ Bloom, H. (2006) Podstawowa analiza losowych eksperymentów do badań społecznych. Dokumenty robocze MDRC dotyczące metodologii badań. MDRC, Nowy Jork
  19. ^ „White, H. (2009) Kilka refleksji na temat bieżących debat na temat oceny wpływu, dokument roboczy 1, International Initiative for Impact Evaluation, New Delhi” . Zarchiwizowane od oryginału w dniu 08.01.2013 . Źródło 2012-10-29 .
  20. ^ „Zaloguj się” (PDF) . Źródło 16 stycznia 2017 r .
  21. ^ Bank Światowy (nd) Inicjatywa oceny wpływu na rozwój (DIME), dokument projektowy, Bank Światowy, Waszyngton, DC
  22. ^ Glosariusz oceny programu Agencji Ochrony Środowiska Stanów Zjednoczonych , dostęp 6 stycznia 2008 r.
  23. ^ Niezależna grupa oceniająca Banku Światowego , dostęp 6 stycznia 2008 r
  24. ^ OECD-DAC (2002) Glosariusz kluczowych terminów w ocenie i zarządzaniu opartym na wynikach Proponowana zharmonizowana terminologia, OECD, Paryż
  25. ^ UNICEF (2004) UNICEF Evaluation Report Standards, Biuro Oceny, UNICEF NYHQ, Nowy Jork
  26. ^ „Definicja oceny: czym jest ocena? - EvaluationWiki” . Źródło 16 stycznia 2017 r .
  27. ^ a b „Nie znaleziono strony” . Źródło 16 stycznia 2017 r . {{ cite web }} : Cite używa ogólnego tytułu ( pomoc )
  28. ^ "Banerjee, AV (2007) 'Making Aid Work' Cambridge, Boston Review Book, MIT Press, MA" (PDF) . Źródło 16 stycznia 2017 r . [ stały martwy link ]
  29. ^ Bamberger, M. and White, H. (2007) Using Strong Evaluation Designs in Developing Countries: Experience and Challenges, Journal of MultiDisciplinary Evaluation, tom 4, numer 8, 58-73
  30. ^ http://www.europeanevaluation.org/download/?noGzip=1&id=1969403 [ stały martwy link ] Oświadczenie EES w sprawie znaczenia zróżnicowanego metodologicznie podejścia do oceny wpływu
  31. ^ http://www.odi.org.uk/resources/odi-publications/opinions/127-impact-evaluation.pdf „Złoty standard” nie jest srebrną kulą do oceny
  32. ^ „Skuteczność pomocy: rola badań jakościowych w ocenie wpływu” . 27 czerwca 2014 r.
  33. ^   Prowse, Martin; Camfield, Laura (2013). „Poprawa jakości pomocy rozwojowej”. Postęp w badaniach nad rozwojem . 13 : 51–61. doi : 10.1177/146499341201300104 . S2CID 44482662 .
  34. ^ a b „White, H. (2009b) Oparta na teorii ocena wpływu: zasady i praktyka, dokument roboczy 3, International Initiative for Impact Evaluation, New Delhi” . Zarchiwizowane od oryginału w dniu 2012-11-06 . Źródło 2012-10-29 .
  35. ^ Gertler, P. (2000) Raport końcowy: Wpływ programu PROGRESA na zdrowie. Międzynarodowy Instytut Badań nad Polityką Żywnościową, Waszyngton, DC
  36. ^ „Dokument bez tytułu” (PDF) . Źródło 16 stycznia 2017 r .
  37. ^ Fiszbein, A. i Schady, N. (2009) Warunkowe transfery pieniężne: zmniejszanie obecnego i przyszłego ubóstwa: raport z badań Banku Światowego, Bank Światowy, Waszyngton, DC
  38. ^ Ocena wpływu: doświadczenie niezależnej grupy oceniającej Banku Światowego, 2006
  39. ^ „Kiedy kiedykolwiek się nauczymy? Poprawa życia poprzez ocenę wpływu” . Źródło 16 stycznia 2017 r .

Źródła i linki zewnętrzne