Evidence of Science?

Wat is het verschil tussen Evidence Based Medicine en Science Based Medicine?

Foto: Bron: Pixabay

In het In Memoriam voor Harriet Hall wordt gesproken over het contrast tussen Evidence Based Medicine en Science Based Medicine. De eerste van die twee zou zich te veel blind staren op statistisch significante uitslagen van onderzoek. Het verschil is echter minder groot als men zich realiseert wat ‘statistisch significant’ wil zeggen.
Eerst even een uitstapje naar iets wat hoop ik gesneden koek is, namelijk de betekenis van een ‘positieve’ testuitslag bij een bevolkingsonderzoek.

Testen op ziekte

We gaan om de gedachten te bepalen uit van een fictief getallenvoorbeeld met 1000 willekeurig gekozen personen. Bekend is dat ruwweg 1 procent een bepaalde ziekte onder de leden heeft. Er zijn dus 10 zieke en 990 gezonde personen in onze groep van 1000. Alle 1000 ondergaan een test. Die test is behept met fouten, maar nauwkeurig onderzoek heeft aangetoond dat 90 procent van de zieken op die test een positieve uitslag heeft.

Heel goed is de test niet want helaas krijgt 20 percent van de gezonden ook een positieve uitslag. (Het is maar een getallenvoorbeeld.) Wat kunnen we nu zeggen over de kans dat iemand de ziekte ook echt heeft als de testuitslag positief is?

Er zijn 10 zieken, die leveren naar verwachting 9 positieve uitslagen. De 990 gezonde personen leveren 0,20 maal 990 is 198 positieve uitslagen. In de verzameling personen met positieve uitslag is de verhouding ziek : gezond dus 9 : 198.

Samenvattend: voor de test wisten we niet beter dat de verhouding ziek : gezond in onze totale groep gelijk was aan 1 : 99. Na kennisneming van de positieve testuitslag is die verhouding 9 : 198, dat is de verhouding in de groep personen met positieve uitslag. De oorspronkelijke verhouding is vermenigvuldigd met 9 : 2. Die verhouding 9 : 2 is gegeven door wat we weten van de gebruikte test. Het is de verhouding tussen correct-positief (90%) en fout-positief (20%). Die hangt dus af van wat we weten over de test. Dat staat los van onze kennis over de onderzochte populatie.

Als we geen willekeurige groep uit de totale bevolking nemen, maar een groep die al bepaalde verdachte symptomen heeft, dan is in die tweede groep de prevalence natuurlijk niet 1 procent, maar bijvoorbeeld 25 procent. Dan wordt door diezelfde test de verhouding vooraf 25 : 75 oftewel 1 : 3 veranderd in een achteraf-verhouding 9 : 6 oftewel 3 : 2 (wat overeenkomt met een kans van 60% dat de desbetreffende ziekte aanwezig is). Dat is al een stuk zorgwekkender, maar geeft nog geen zekerheid.

Terminologie

Die cruciale verhouding correct-positief : fout-positief heet likelihood ratio. Als men kansen weergeeft zou als ik het hier gedaan heb, dus als verhoudingen tussen welles en nietes, dan heten zulke verhoudingen odds, in het Nederlands wedverhoudingen. Dus onze regel luidt:

achteraf odds = vooraf odds maal likelihood ratio.

Het is instructief om ook even te kijken wat een negatieve testuitslag inhoudt. Van de 10 zieken krijgt er één een negatieve uitslag, en van de 990 gezonden krijgen er 990 min 198 is 792 een negatieve uitslag. In de verzameling negatieve uitslagen is de verhouding ziek : gezond dus 1 : 792. De oorspronkelijke verhouding 1 : 99 is dus met 1 : 8 vermenigvuldigd. Dat is de verhouding fout-negatief : correct-negatief. Ook een soort likelihood ratio, maar niet dezelfde als bij positieve uitslag. Dat komt doordat de twee verschillende fouten verschillende frequenties hebben. Voor personen die gewend zijn aan medische terminologie: correct-positief staat ook bekend als sensitiviteit, en correct-negatief heet specificiteit.

Trials als test

Dezelfde redenering kan gebruikt worden bij de beoordeling van randomized controlled trials en dergelijke. We hebben een behandeling of een middel dat misschien werkt. Het is moeilijk om een slag te slaan naar de kans dat de remedie ook iets voorstelt. Laten we even aannemen dat er 1 procent kans is. Dat is nog behoorlijk optimistisch voor een stof die nog niet buiten het laboratorium is geweest. Bij wijze van test organiseren we een dubbelblind randomized controlled trial. We weten niet goed hoe goed het middel werkt, maar we zetten het onderzoek zo in elkaar dat we denken dat áls het middel behoorlijk werkt, het trial dit ook met 80% kans zal aantonen. Die 80% heet met een goed Nederlandse woord de power. Er is natuurlijk een kans dat een middel dat helemaal niets doet toch stomtoevallig een positieve uitslag produceert. Die kans heet het significantieniveau. Dat wordt vaak op 5 procent gezet.

Vaak wordt gedacht dat die 5 procent de kans is dat men zich vergist en dat het middel eigenlijk niet werkt en dat de uitslag toevallig maar zo gunstig is. Men spreekt dan van ‘de kans dat het toeval/onzin/onwerkzaam etc. is’. Zelfs serieuze wetenschappers die beter hadden moeten weten vergissen zich hierin. Er bestaat helemaal niet zoiets als ‘kans dat het toeval is’, dus als u die zinsnede ergens ziet staan, dan weet u dat betrokkene het niet snapt. Het is telkens ‘de kans op een dergelijke uitkomst, áls het onzin is’, niet ‘de kans dat het onzin is, gegeven deze uitkomst’.

Wat bij het onderzoek van zieken de verhouding correct-positief : fout-positief is, is hier dus 80 : 5, wat hetzelfde is als 16 : 1. Bij een geslaagde proef gaat de verhouding van de ‘werkt’- versus ‘werkt niet’-kans dus van 1 : 99 naar 16 : 99. Wist men tevoren, op grond van eerdere resultaten al dat het tamelijk zeker was dat het middel zou werken (zeg 4 : 1), dan gaat die verhouding door de gelukte proef over in 64 : 1.

Stel dat de trial mislukt, of in pseudowetenschappelijk jargon ‘significance is not achieved’. Hoe verandert dan de plausibiliteit? Daartoe moeten we weer de verhouding fout-negatief : correct-negatief bepalen. Correct-negatief is makkelijk: die kans is 95%. Fout-negatief is het complement van de power. Bij een power van 80% is de fout-negatiefkans 20%. Dus bij een ‘mislukte’ trial is de likelihood ratio iets van 20 : 95. Een geringe plausibiliteit van ‘1 : veel’ wordt dan ‘1 : zowat vijfmaal zoveel’.

Zout in Neurenberg

Zo’n mislukt trial voor homeopathie is al in 1835 in Neurenberg georganiseerd. Daar kregen gezonde vrijwilligers allemaal hoogverdund keukenzout of pure gesmolten sneeuw. De bewering dat degenen die Natrum Muriaticum kregen allemaal typische verschijnselen van Natrum Muriaticum of zelfs maar opvallend veel ziektesymptomen zouden krijgen, kwam niet uit. Als de medici toen voldoende van statistiek hadden gesnapt, zouden ze hebben geconcludeerd dat de homeopathie van heel onaannemelijk naar uiterst onaannemelijk was gedegradeerd, en dan was het toen afgelopen geweest met de homeopathie.

Dat is niet gebeurd, althans niet met de gelovigen. Integendeel. De homeopaten beroepen zich erop dat zij het toch maar geweest zijn die het eerste dubbelblinde controlled randomized trial hebben opgezet. Ze verzwijgen dat het door de tegenstanders was georganiseerd en dat de uitslag negatief was.

Bayes

Deskundigen zullen nu zeggen dat ik hier de bayesiaanse methode heb uitgelegd. Dat klopt. Helaas wordt die methode vaak besproken met afschuwelijk ingewikkelde formules, terwijl getallenvoorbeelden net zo goed duidelijk maken hoe het werkt. Veel ‘bayesianen’ bedienen zich voorts van methoden die andere wetenschappers tegen de haren strijken. Het meest omstreden is hun gewoonte om bij afwezigheid van kennis vooraf te zeggen dat de vooraf-plausibiliteit gegeven wordt door de verhouding 1 : 1. Dat lijkt ook de gedachte achter de evidence based medicine: zo gauw iets onderzocht wordt in een trial, doen we alsof we geen enkel idee hebben over de effectiviteit, dus is de verhouding tussen de kansen dat het werkt of niet gewoon 50% : 50%.

Een significant uitgevallen onderzoek wil slechts zeggen dat de vooraf-plausibiliteit, uitgedrukt als een verhouding ‘werkt : werkt niet’ (dus de odds) wordt vermenigvuldigd met iets van 10 : 1 of 20 : 1. Hierboven kwam ik uit op 16 : 1, maar de power van zo’n trial is een boterzacht gegeven omdat de vermoedelijke werkzaamheid meestal onbekend is. Vaak wordt uitgegaan van wat in de klinische praktijk nog zinvol wordt gevonden. Het lijkt verstandiger om ervan uit te gaan dat de power meestal ergens tussen de 50% en 100% is.

Gaat het dus om iets dat op grond van ervaringen met soortgelijke middelen een vooraf-plausibiliteit van 1 : 99 (= 1 procent kans dat het wat voorstelt), dan zal na een geslaagde trial de achteraf-plausibiliteit ergens tussen de 10 : 99 en 20 : 99 zitten. Hoopgevend, maar nog steeds waarschijnlijker dat het niet dan wel werkt. Pas bij meerdere positieve trials kom je bij plausibiliteiten die het verantwoord maken om het middel aan te bevelen. Wat ook helpt is trials zo inrichten dat het significantieniveau niet 5 procent is, maar bijvoorbeeld 1 of 0,1 procent.

Zinloos

Deze analyse maakt duidelijk waarom het zinloos is om controlled randomized trials voor laten we zeggen homeopathie uit te voeren. Zulke trials zijn uitstekend te doen, omdat de blindering zo perfect kan gebeuren. Maar het blijft zinloos. De vooraf-plausibiliteit van de werkzaamheid van hoge verdunningen is gewoon 0 : 1, en waar je dat ook mee vermenigvuldigt, het blijft 0 : iets, dus 0 : 1. Dat er toch zoveel ‘significante’ homeopathische trials zijn, ligt aan de rijkelijk voorhanden mogelijkheden om te frauderen, terwijl men ogenschijnlijk door allerlei hoepeltjes weet te springen die zogenaamd de kwaliteit van een onderzoeksverslag garanderen.

Het blad Skeptical Inquirer (mei-juni 2023, vertaling van een artikel in het winternummer 2022 van Skeptiker) had daar onlangs een grof staaltje van. De onderzoekers hadden zo te zien achteraf, na de verbreking van de blindering door middel van het opvoeren van het aantal exclusiecriteria (namelijk van 1 te weten zwangerschap naar 22, te weten voornamelijk een hele ris ouderdomskwalen) een aantal ongewenste overlijdens uit de verumgroep verwijderd. Er waren ook nog andere aanwijzingen voor datamanipulatie. Het werkelijk gênante is dat de referees van Oncology niets doorhadden, en dat de fraude ontdekt is door skeptici die helemaal geen medicus waren.

Significant

Ook maakt deze analyse duidelijk waarom serieuze wetenschappers ‘statistisch significant’ slechts beschouwen als ‘misschien de moeite waard om eens beter te kijken’, een eerste filter om uit een grote massa toevalsresultaten degene eruit te pikken waarmee doorgeëxperimenteerd kan worden.

Met andere woorden, het komt uit de praktijk van exploratief onderzoek.

De vijfprocentsdrempel komt in feite uit de praktijk van landbouwkundige proeven, waarbij men honderden kleine proefveldjes, elk met iets andere omstandigheden, variëteiten of bemestingsmethoden bekijkt. De wijdverspreide praktijk om uit enorme aantallen gegevens alleen de ‘significante’ eruit te vissen was volgens John Ioannidis’ essay uit 2005 zelfs de voornaamste reden waarom de meeste ‘onderzoeksresultaten’ fout zijn.

In de parapsychologie is het gebruikelijk om proeven te doen waarbij men helemaal niet weet of er een effect zal verschijnen. Men is dan heel blij te zijn als men een significant resultaat (p =0,05) bereikt. Merk op dat ‘stoppen als significantie is bereikt’ de toevalskans op nep-succes al flink verhoogt. Die p-waarde heeft alleen betekenis als het aantal te onderzoeken gevallen voor de aanvang van een proef is vastgelegd. Het gevolg van dit p-fetisjisme is dat elk van deze ideetjes na verloop van tijd weer verlaten wordt en men iets anders gaat proberen. Het is begrijpelijk dat veel wetenschappers dit niet serieus nemen. In de deeltjesfysica pleegt men pas optimistisch te worden bij een p van een miljoenste of een tienmiljoenste.

Conclusie

De reden om aan de tamelijk bescheiden verbetering (likelihood ratio van 1 : 10, bijvoorbeeld) bij gewone randomized controlled trials waarde te hechten is dat zulke dure onderzoeken niet worden opgezet als er niet al op andere manier duidelijk is geworden dat het onderzoek waarschijnlijk geen weggegooid geld is. De serieuze medische en farmacologische onderzoekspraktijk pleegt alleen te onderzoeken wat om te beginnen al enige graad van plausibiliteit heeft. Helemaal mal is het dus niet om voor serieus onderzoek de a priori plausibiliteit op 50/50 te zetten.

Samenvattend, als men in de praktijk van evidence based medicine ertoe zou overgaan om statistische significantie niet als een soort sacrament of fetisj op te vatten, maar als middel om een a priori aannemelijkheid bij te stellen, net zo als dat in wezen al gebeurt bij de interpretatie van allerlei tests op aanwezigheid van ziekte, dan zou de evidence based medicine ook science based worden.

Dr. J.W. Nienhuys, wiskundige, is secretaris van Skepsis en redacteur van Skepter.

local_offer evidence based

local_offer medicine

local_offer Science

local_offer science-based