Hierarchia dowodów

Hierarchia dowodów (lub poziomów dowodów ) to heurystyka używana do uszeregowania względnej siły wyników uzyskanych z badań naukowych. Istnieje powszechna zgoda co do względnej siły badań epidemiologicznych na dużą skalę . Zaproponowano ponad 80 różnych hierarchii oceny dowodów medycznych . Projekt badania (taki jak opis przypadku dla indywidualnego pacjenta lub ślepa , randomizowana, kontrolowana próba ) i mierzone punkty końcowe (takie jak przeżycie lub jakość życia ) wpływają na siłę dowodów. W badaniach klinicznych najlepsze dowody na skuteczność leczenia pochodzą głównie z metaanaliz randomizowanych badań kontrolowanych (RCT). Systematyczne przeglądy zakończonych, wysokiej jakości randomizowanych badań kontrolowanych – takie jak opublikowane przez Cochrane Collaboration – mają taką samą rangę, jak systematyczny przegląd zakończonych, wysokiej jakości badań obserwacyjnych w odniesieniu do badania skutków ubocznych. Hierarchie dowodów są często stosowane w praktyki oparte na dowodach i są integralną częścią medycyny opartej na dowodach (EBM).

Definicja

W 2014 roku Stegenga zdefiniował hierarchię dowodów jako „uporządkowanie rodzajów metod zgodnie z potencjalnym błędem systematycznym tej metody”. Na szczycie hierarchii znajduje się metoda charakteryzująca się największą wolnością od systemowego obciążenia lub najlepszą trafnością wewnętrzną w stosunku do hipotetycznej skuteczności testowanej interwencji medycznej. W 1997 roku Greenhalgh zasugerował, że jest to „względna waga, jaką mają różne rodzaje badań podstawowych przy podejmowaniu decyzji dotyczących interwencji klinicznych”.

National Cancer Institute definiuje poziomy dowodów jako „ system rankingowy używany do opisania siły wyników mierzonych w badaniu klinicznym lub badaniu naukowym. Projekt badania [...] i mierzone punkty końcowe [...] wpływają siła dowodów”.

Przykłady

State University of New York ^{[ wymaga aktualizacji ]}

Kanadyjskie Stowarzyszenie Farmaceutyczne w Onkologii

Przykładowe hierarchie dowodów w medycynie.

Zaproponowano wiele hierarchii dowodów. Podobne protokoły oceny jakości badań są wciąż w fazie rozwoju. Jak dotąd dostępne protokoły poświęcają stosunkowo niewiele uwagi temu, czy badania wyników są istotne dla skuteczności (wynik leczenia przeprowadzonego w idealnych warunkach) lub skuteczności (wynik leczenia przeprowadzonego w zwykłych, przewidywalnych warunkach).

STOPIEŃ

Podejście GRADE (ang. Grading of Recommendations Assessment, Development and Evaluation) to metoda oceny pewności dowodów (znanej również jako jakość dowodów lub zaufanie do oszacowań efektu) oraz siły zaleceń. GRADE powstał w 2000 roku jako współpraca metodologów, twórców wytycznych, biostatystyków, klinicystów, naukowców zajmujących się zdrowiem publicznym i innych zainteresowanych członków.

Ponad 100 organizacji (w tym między innymi Światowa Organizacja Zdrowia , brytyjski National Institute for Health and Care Excellence (NICE), kanadyjska grupa zadaniowa ds. ocenić jakość dowodów i siłę zaleceń dotyczących opieki zdrowotnej. (Zobacz przykłady wytycznych dotyczących praktyki klinicznej, korzystając z GRADE online).

GRADE ocenia jakość dowodów w następujący sposób:

Wysoki	Istnieje duża pewność, że prawdziwy efekt jest zbliżony do efektu oszacowanego.
Umiarkowany	Istnieje umiarkowana pewność co do oszacowanego efektu: rzeczywisty efekt prawdopodobnie będzie zbliżony do efektu oszacowanego, ale istnieje możliwość, że jest zasadniczo inny.
Niski	Istnieje ograniczone zaufanie do oszacowanego efektu: rzeczywisty efekt może znacznie różnić się od oszacowanego efektu.
Bardzo niski	Istnieje bardzo małe zaufanie do oszacowanego efektu: rzeczywisty efekt prawdopodobnie będzie znacznie różnił się od efektu oszacowanego.

Guyatta i Sacketta

W 1995 roku Guyatt i Sackett opublikowali pierwszą taką hierarchię.

Greenhalgh umieścił różne rodzaje studiów podstawowych w następującej kolejności:

Systematyczne przeglądy i metaanalizy „RCT z ostatecznymi wynikami”.
RCT z ostatecznymi wynikami (przedziały ufności, które nie pokrywają się z progiem efektu istotnego klinicznie)
RCT z nieostatecznymi wynikami (oszacowanie punktowe, które sugeruje klinicznie istotny efekt, ale z przedziałami ufności pokrywającymi się z progiem dla tego efektu)
Badania kohortowe
Badania kliniczno-kontrolne
Badania przekrojowe
Opisy przypadków

Saunders i in.

Protokół sugerowany przez Saundersa i in. przypisuje raporty z badań do sześciu kategorii na podstawie projektu badawczego, podstaw teoretycznych, dowodów możliwej szkody i ogólnej akceptacji. Aby zostać sklasyfikowanym zgodnie z tym protokołem, muszą istnieć publikacje opisowe, w tym podręcznik lub podobny opis interwencji. Ten protokół nie bierze pod uwagę charakteru żadnej grupy porównawczej, wpływu zmiennych zakłócających, charakteru analizy statystycznej ani szeregu innych kryteriów. Interwencje są oceniane jako należące do Kategorii 1, dobrze wspierane, skuteczne terapie, jeśli istnieją dwa lub więcej randomizowanych kontrolowanych badań wyników porównujących leczenie docelowe z odpowiednim leczeniem alternatywnym i wykazujące znaczącą przewagę nad leczeniem docelowym. Interwencje są przypisane do kategorii 2, wspierane i prawdopodobnie skuteczne leczenie, w oparciu o pozytywne wyniki nierandomizowanych projektów z pewną formą kontroli, które mogą obejmować grupę nieleczoną. Kategoria 3, wspierane i akceptowalne leczenie, obejmuje interwencje poparte jednym kontrolowanym lub niekontrolowanym badaniem, serią badań z udziałem jednego podmiotu lub pracą z inną populacją niż ta, która jest przedmiotem zainteresowania. Kategoria 4, obiecujące i akceptowalne leczenie, obejmuje interwencje, które nie mają żadnego poparcia poza ogólną akceptacją i niepotwierdzoną literaturą kliniczną; jednak wszelkie dowody na możliwe szkody wykluczają leczenie z tej kategorii. Kategoria 5, innowacyjne i nowatorskie leczenie, obejmuje interwencje, które nie są uważane za szkodliwe, ale nie są szeroko stosowane ani omawiane w literaturze. Kategoria 6, dotycząca leczenia, to klasyfikacja dla zabiegów, które mogą wyrządzić szkodę, a także mają nieznane lub nieodpowiednie podstawy teoretyczne.

Khan i in.

Protokół oceny jakości badań został zaproponowany w raporcie Centrum Recenzji i Rozpowszechniania, przygotowanym przez Khan i in. i pomyślana jako ogólna metoda oceny interwencji medycznych i psychospołecznych. Chociaż zdecydowanie zachęcano do korzystania z randomizowanych projektów, w protokole tym zauważono, że takie projekty były przydatne tylko wtedy, gdy spełniały wymagające kryteria, takie jak prawdziwa randomizacja i ukrywanie przydzielonej grupy terapeutycznej przed klientem i innymi osobami, w tym osobami oceniającymi wynik. Khan i in. protokół podkreślał potrzebę dokonywania porównań na podstawie „zamiaru leczenia”, aby uniknąć problemów związanych z większym wyniszczeniem w jednej grupie. Khan i in. protokół przedstawił również wymagające kryteria dla badań nierandomizowanych, w tym dopasowywanie grup pod kątem potencjalnych zmiennych zakłócających i adekwatne opisy grup i terapii na każdym etapie oraz ukrywanie wyboru leczenia przed osobami oceniającymi wyniki. Protokół ten nie zawierał klasyfikacji poziomów dowodów, ale obejmował lub wykluczał terapie z klasyfikacji jako oparte na dowodach, w zależności od tego, czy badania spełniały określone standardy.

Krajowy rejestr praktyk i programów opartych na dowodach w USA

Protokół oceny został opracowany przez amerykański Krajowy Rejestr Praktyk i Programów opartych na dowodach (NREPP). Ocena zgodnie z tym protokołem ma miejsce tylko wtedy, gdy interwencja przyniosła już jeden lub więcej pozytywnych wyników, z prawdopodobieństwem mniejszym niż 0,05, jeśli zostały one opublikowane w recenzowanym czasopiśmie lub w raporcie ewaluacyjnym i jeśli dokumentacja, taka jak udostępnione zostały materiały szkoleniowe. Ocena NREPP, która przypisuje pewnym kryteriom oceny jakości od 0 do 4, bada wiarygodność i ważność miar wyników zastosowanych w badaniu, dowody na wierność interwencji (przewidywalne zastosowanie leczenia w ten sam sposób za każdym razem), poziomy brakujących danych i ścieralność, potencjalne zmienne zakłócające oraz stosowność postępowania statystycznego, w tym wielkość próby.

Historia

Kanada

Termin ten został po raz pierwszy użyty w raporcie „Canadian Task Force on the Periodic Health Examination” (CTF) z 1979 r. w celu „oceny skuteczności interwencji zgodnie z jakością uzyskanych dowodów”. Grupa zadaniowa wykorzystała trzy poziomy, dzieląc poziom II:

Poziom I: Dowody z co najmniej jednego badania z randomizacją ,
Poziom II1: Dowody z co najmniej jednego dobrze zaprojektowanego badania kohortowego lub badania kliniczno-kontrolnego , najlepiej z więcej niż jednego ośrodka lub grupy badawczej.
Poziom II2: Porównania między czasami i miejscami z interwencją lub bez niej
Poziom III: Opinie szanowanych autorytetów, oparte na doświadczeniu klinicznym, badaniach opisowych lub raportach komisji ekspertów.

CTF oceniła swoje zalecenia w 5-punktowej skali A–E: A: Dobry poziom dowodów dla zalecenia rozważenia warunku, B: Dostateczny poziom dowodów dla zalecenia rozważenia warunku, C: Niski poziom dowodów dla zalecenia rozważenia stanu zalecenie rozważenia warunku, D: Dostateczny poziom dowodów na zalecenie wykluczenia warunku, oraz E: Dobry poziom dowodów na zalecenie wykluczenia warunku z rozpatrzenia. CTF zaktualizował swój raport w 1984, 1986 i 1987.

Stany Zjednoczone

W 1988 roku Grupa Zadaniowa ds. Usług Prewencyjnych Stanów Zjednoczonych (USPSTF) przedstawiła swoje wytyczne oparte na CTF przy użyciu tych samych 3 poziomów, dalej dzieląc poziom II.

Poziom I: Dowody uzyskane z co najmniej jednego odpowiednio zaprojektowanego, randomizowanego, kontrolowanego badania .
Poziom II-1: Dowody uzyskane z dobrze zaprojektowanych kontrolowanych badań bez randomizacji .
Poziom II-2: Dowody uzyskane z dobrze zaprojektowanych analiz kohortowych lub kliniczno-kontrolnych , najlepiej z więcej niż jednego ośrodka lub grupy badawczej.
Poziom II-3: Dowody uzyskane z wielu projektów szeregów czasowych z interwencją lub bez niej. Za tego typu dowody można również uznać dramatyczne wyniki w niekontrolowanych badaniach.
Poziom III: Opinie szanowanych autorytetów, oparte na doświadczeniu klinicznym, badaniach opisowych lub raportach komisji ekspertów.

Na przestrzeni lat opisano wiele innych systemów oceniania.

Zjednoczone Królestwo

We wrześniu 2000 r. organizacja CEBM Levels of Evidence z Oksfordu (Wielka Brytania) opublikowała swoje wytyczne dotyczące „poziomów” dowodów dotyczących twierdzeń dotyczących rokowania, diagnozy, korzyści z leczenia, szkód wynikających z leczenia i badań przesiewowych. Dotyczyła nie tylko terapii i profilaktyki, ale także badań diagnostycznych, markerów prognostycznych czy szkodliwości. Oryginalne Poziomy CEBM zostały po raz pierwszy udostępnione dla Evidence-Based On Call, aby proces znajdowania dowodów był wykonalny, a jego wyniki jasne. Jak opublikowano w 2009 roku są to:

1a: Systematyczne przeglądy (z jednorodnością) randomizowanych badań kontrolowanych
1b: Indywidualne badania z randomizacją i grupą kontrolną (z wąskim przedziałem ufności )
1c: Wszyscy albo żaden (kiedy wszyscy pacjenci zmarli, zanim leczenie stało się dostępne, ale niektórzy teraz je przeżywają; lub gdy niektórzy pacjenci zmarli, zanim leczenie stało się dostępne, ale nikt nie umiera).
2a: Przeglądy systematyczne (z jednorodnością) badań kohortowych
2b: Indywidualne badanie kohortowe lub badania z randomizacją i grupą kontrolną niskiej jakości (np. <80% obserwacji)
2c: Badania „Wyniki”; badania ekologiczne
3a: Przegląd systematyczny (z jednorodnością) badań kliniczno-kontrolnych
3b: Indywidualne badanie kliniczno-kontrolne
4: Seria przypadków (oraz niskiej jakości badania kohortowe i kliniczno-kontrolne)
5: Opinia eksperta bez wyraźnej krytycznej oceny lub oparta na fizjologii, badaniach laboratoryjnych lub „ pierwszych zasadach ”

W 2011 roku międzynarodowy zespół przeprojektował poziomy Oxford CEBM, aby były bardziej zrozumiałe i uwzględniały ostatnie zmiany w schematach rankingu dowodów. Poziomy były używane przez pacjentów, klinicystów, a także do opracowania wytycznych klinicznych, w tym zaleceń dotyczących optymalnego stosowania fototerapii i terapii miejscowej w łuszczycy oraz wytycznych dotyczących stosowania systemu stopniowania BCLC do diagnozowania i monitorowania raka wątrobowokomórkowego w Kanadzie.

Światowy

W 2007 roku system klasyfikacji Światowego Funduszu Badań nad Rakiem opisał 4 poziomy: przekonujące, prawdopodobne, możliwe i niewystarczające dowody. We wszystkich Global Burden of Disease Studies wykorzystano go do oceny dowodów epidemiologicznych potwierdzających związki przyczynowe.

Zwolennicy

W 1995 Wilson i in., w 1996 Hadorn i in. aw 1996 Atkins i in. opisali i bronili różnych typów systemów oceniania.

Krytyka

Ponad dekadę po jej ustanowieniu stosowanie hierarchii dowodów było coraz bardziej krytykowane w XXI wieku. W 2011 roku systematyczny przegląd literatury krytycznej wykazał 3 rodzaje krytyki: proceduralne aspekty EBM (zwłaszcza ze strony Cartwrighta, Worralla i Howicka), większa niż oczekiwano zawodność EBM (Ioaanidis i inni) oraz niekompletność EBM jako filozofii nauka (Ashcroft i inni). ^{[ wymagane wyjaśnienie ]} Wielu krytyków publikowało w czasopismach filozoficznych, ignorowanych przez klinicystów zwolenników EBM. Rawlinsa i Bluhma należy zauważyć, że EBM ogranicza zdolność wyników badań do informowania o opiece nad poszczególnymi pacjentami i że do zrozumienia przyczyn chorób konieczne są zarówno badania na poziomie populacji, jak i badania laboratoryjne. Hierarchia dowodów EBM nie uwzględnia badań nad bezpieczeństwem i skutecznością interwencji medycznych. RCT powinny być zaprojektowane „w celu wyjaśnienia zmienności wewnątrzgrupowej, co można zrobić tylko wtedy, gdy hierarchia dowodów zostanie zastąpiona siecią uwzględniającą związek między badaniami epidemiologicznymi i laboratoryjnymi”

Hierarchia dowodów uzyskanych w ramach projektu badania została zakwestionowana, ponieważ wytyczne „nie zdefiniowały właściwie kluczowych terminów, nie oceniły zalet niektórych nierandomizowanych badań kontrolowanych i nie zastosowały obszernej listy ograniczeń projektu badania”.

Stegenga skrytykował w szczególności to, że metaanalizy są umieszczane na szczycie takich hierarchii. Założenie, że RCT powinny koniecznie znajdować się blisko szczytu takich hierarchii, zostało skrytykowane przez Worralla i Cartwrighta.

W 2005 roku Ross Upshur zauważył, że EBM twierdzi, że jest normatywnym przewodnikiem po byciu lepszym lekarzem, ale nie jest doktryną filozoficzną . Zwrócił uwagę, że zwolennicy EBM wykazywali „prawie ewangeliczny zapał” przekonani o jego wyższości, ignorując krytyków dążących do poszerzenia granic EBM z filozoficznego punktu widzenia.

Borgerson w 2009 roku napisał, że uzasadnienia poziomów hierarchii nie są absolutne i nie uzasadniają ich epistemicznie , ale „badacze medyczni powinni zwracać większą uwagę na społeczne mechanizmy radzenia sobie z wszechobecnymi uprzedzeniami”. La Caze zauważył, że nauki podstawowe znajdują się na niższych poziomach EBM, chociaż „odgrywają rolę w określaniu eksperymentów, ale także analizowaniu i interpretowaniu danych”.

Concato argumentował w 2004 r., Że pozwala RCT na zbyt duży autorytet i że nie na wszystkie pytania badawcze można odpowiedzieć za pomocą RCT, czy to ze względów praktycznych, czy etycznych. Nawet jeśli dostępne są dowody z wysokiej jakości RCT, dowody z innych typów badań mogą nadal być istotne. Stegenga wyraził opinię, że schematy oceny dowodów są nieracjonalnie ograniczające i zawierają mniej informacji niż inne dostępne obecnie schematy.

W swojej rozprawie doktorskiej z 2015 roku poświęconej badaniu różnych hierarchii dowodów w medycynie, Christopher J Blunt konkluduje, że chociaż skromne interpretacje, takie jak model La Caze'a, hierarchie warunkowe, takie jak GRADE, oraz podejścia heurystyczne bronione przez Howicka i in. przetrwał poprzednią krytykę filozoficzną, argumentuje, że skromne interpretacje są tak słabe, że nie są pomocne w praktyce klinicznej. Na przykład „GRADE i podobne modele warunkowe pomijają istotne klinicznie informacje, takie jak informacje o różnicach w efektach leczenia i przyczynach różnych odpowiedzi na terapię; oraz że podejście heurystyczne nie ma niezbędnego wsparcia empirycznego”. Blunt dalej konkluduje, że „hierarchie są słabą podstawą do stosowania dowodów w praktyce klinicznej”, ponieważ podstawowe założenia stojące za hierarchiami dowodów, że „informacje o przeciętnych efektach leczenia poparte dowodami wysokiej jakości mogą uzasadniać mocne zalecenia”, są nie do utrzymania , a zatem dowody z badań indywidualnych należy oceniać oddzielnie.

Zobacz też

Linki zewnętrzne

Poziomy dowodów z objaśnieniami – wpis w Centrum Medycyny Opartej na Dowodach
Strona zasobów medycyny opartej na dowodach – z diagramem przedstawiającym różne poziomy dowodów tworzących piramidę
Systematyczna baza danych 195 hierarchii dowodów w medycynie do 08.10.2020 autorstwa Christophera J. Blunta do jego pracy doktorskiej.

Ten artykuł zawiera materiały należące do domeny publicznej ze Słownika terminów związanych z rakiem . Amerykański Narodowy Instytut Raka .