14

Onjuiste statistieken

Nu je de statistiek en de voordelen en risico’s van de intuïtie op waarde kunt schatten, gaan we bekijken hoe deze cijfers en berekeningen herhaaldelijk worden misbruikt en verkeerd begrepen. Onze eerste voorbeelden komen uit de wereld van de journalistiek, maar de werkelijke gruwel is dat journalisten niet de enigen zijn die fundamentele denkfouten maken. Cijfers kunnen levens verwoesten, zoals we zullen zien.

De grootste getallen

Kranten zijn dol op grote getallen en in het oog springende koppen. Ze hebben wonderen en heimelijke angsten nodig, en een klein percentage verandering van de risico’s is voor hen nooit genoeg om lezers aan adverteerders te verkopen (want dat is het bedrijfsmodel). Met dit doel voor ogen kiezen ze de meest melodramatische en misleidende manier om een statistische toename van risico te beschrijven, ‘relatieve toename van risico’ geheten.

Laten we zeggen dat het risico op een hartaanval tussen de vijftig en de zestig jaar bij een hoog cholesterolgehalte 50 procent hoger is.’ Dat klinkt niet zo best. Laten we zeggen dat het extra risico op een hartaanval bij een hoog cholesterolgehalte slechts 2 procent bedraagt. Dat lijkt me minder erg. Maar het zijn dezelfde (hypothetische) cijfers. Kijk eens naar het volgende. Van de honderd mannen tussen de vijftig en de zestig jaar met een normaal cholesterolgehalte krijgen naar verwachting vier een hartaanval, maar van de honderd mannen met een hoog cholesterolgehalte krijgen naar verwachting zes een hartaanval. Dat zijn twee extra hartaanvallen per honderd mannen. Dit noemt men ‘natuurlijke frequenties’.

Natuurlijke frequenties zijn gemakkelijk te begrijpen, want daarbij worden concrete cijfers gebruikt, net als in het alledaagse leven, wanneer je kinderen telt bij een schoolreisje of kijkt of je genoeg wisselgeld terugkrijgt – het gaat hier niet om kansberekeningen, percentages of iets anders wat ook maar een klein beetje technisch of moeilijk is.2 Massa’s mensen bepleiten dat we bestemd zijn om te rekenen en te redeneren met concrete cijfers als deze, en niet met kansen, en daarom sluiten concrete cijfers beter aan bij onze intuïtie. Simpele getallen zijn simpel.

De andere methoden om het toegenomen risico te beschrijven hebben eveneens een naam.3 Bij het bovengenoemde voorbeeld van het hoge cholesterolgehalte krijg je een toegenomen risico van 50 procent (de ‘relatieve toename van risico’) of een toegenomen risico van 2 procent (de ‘absolute toename van risico’) of, laat ik het er goed inhameren, twee extra hartaanvallen op elke honderd mannen, de natuurlijke frequentie.

Natuurlijke frequenties zijn niet alleen de meest begrijpelijke optie, maar ze bevatten ook meer informatie dan de ‘relatieve toename van risico’ van de journalisten. Zo kregen we kortgeleden te horen dat rood vlees darmkanker veroorzaakt en dat ibuprofen de kans op een hartaanval verhoogt, maar van het lezen van die verslagen werd je geen steek wijzer. Kijk eens naar het volgende fragment over darmkanker uit het programma Today op Radio 4: ‘Wat betekent een hoger risico, professor Bingham?’ ‘Een risico dat een derde hoger is’. ‘Dat lijkt heel veel, een derde hoger; wat betekent dat in concrete cijfers?’ ‘Een verschil […] van ongeveer twintig mensen per jaar’. ‘Dus het gaat om een klein aantal?’ ‘Eh […] per 10.000 […]’

Dit soort dingen is moeilijk duidelijk te maken als je je buiten de simpelste vorm begeeft. Professor Sheila Bingham is directeur van het MRC Centre for Nutrition in Cancer Epidemiology Prevention and Survival op de University of Cambridge en werkt met deze cijfers om de kost te verdienen, maar in dit (volkomen vergeeflijke) gestuntel in een radioprogramma staat ze niet alleen: er bestaan onderzoeken die aantonen dat artsen, plaatselijke gezondheidscommissies en juristen die de kost verdienen met de interpretatie en het management van risico’s vaak de grootste moeite hebben publiekelijk duidelijk te maken waar ze het over hebben.4 Men neemt bovendien veel eerder juiste beslissingen als informatie over risico’s wordt uitgedrukt in natuurlijke frequenties, en niet in kansberekeningen of in percentages.

Bij pijnstillers en hartaanvallen, die beide de voorpagina halen, heeft de dringende behoefte het grootst mogelijke getal te kiezen ertoe geleid dat de cijfers in veel kranten volkomen onnauwkeurig werden weergegeven. De verslagen waren gebaseerd op een onderzoek waarin de deelnemers vier jaar lang werden geobserveerd, en de resultaten, uitgedrukt in natuurlijke frequenties, deden vermoeden dat er één extra hartaanval te verwachten viel op iedere 1005 mensen die ibuprofen gebruikten. De Daily Mail meldde in een artikel met de kop ‘Pillen tegen hoofdpijn mogelijk dodelijk’: ‘Brits onderzoek heeft onthuld dat patiënten die ibuprofen tegen artritis innemen 24 procent meer risico op een hartinfarct hebben.’ De angst is voelbaar.

Bijna alle kranten vermeldden de relatieve toenames van het risico: bij diclofenac neemt de kans op een hartaanval met 55 procent toe, bij ibuprofen met 24 procent. Alleen de Daily Telegraph en de Evening Standard vermeldden de natuurlijke frequenties: één extra hartaanval op elke 1005 mensen bij ibuprofen. Ondertussen deed de Mirror een mislukte poging door te melden dat 1 op de 1005 mensen die ibuprofen gebruiken ‘in de loop van het komende jaar aan hartfalen ten prooi zal vallen’. Nee, het gaat om hartaanvallen, niet om hartfalen, en het is één persoon extra op de 1005, bovenop de hartaanvallen die zich toch al zouden voordoen. Verscheidene andere kranten maakten dezelfde fout.

Dit is vaak te wijten aan persberichten, en academici maken zich net zo goed als anderen schuldig aan een overdreven dramatische presentatie van hun onderzoek (de Royal Society geeft uitstekende richtlijnen over publicatie van onderzoek, mocht je geïnteresseerd zijn). Maar voor het geval iemand met een hoge positie in de mediawereld dit leest: hier volgt de informatie over risico’s die ik graag in een dagblad vermeld zou willen zien om me te helpen beslissingen te nemen over mijn gezondheid: ik wil weten over wie u het hebt (bijvoorbeeld over mannen tussen de vijftig en de zestig jaar), ik wil weten hoe hoog het basale risico is (bijvoorbeeld: in de loop van tien jaar krijgen vijf op de honderd mannen een hartaanval), en ik wil weten in hoeverre het risico is toegenomen, uitgedrukt in een natuurlijke frequentie (twee extra mannen van die honderd krijgen in de loop van tien jaar een hartaanval). Ik wil ook precies weten wat de oorzaak van dat toegenomen risico is – zo nu en dan een pijnstiller, of elke dag een badkuip vol pijnstillende medicijnen tegen artritis. Dan zal ik overwegen uw kranten weer te gaan lezen in plaats van blogs van mensen die begrijpen wat onderzoek is, met een betrouwbare link naar het oorspronkelijke wetenschappelijke artikel, zodat ik de samenvatting desgewenst nog eens kan controleren.

Meer dan honderd jaar geleden heeft H.G. Wells gezegd dat statistisch denken in een moderne technologische samenleving ooit even belangrijk zou worden als kunnen lezen en schrijven. Daar ben ik het niet mee eens: probabilistisch redeneren is voor iedereen moeilijk, maar alle mensen hebben inzicht in normale getallen. Daarom zijn ‘natuurlijke frequenties’ de enige verstandige manier om risico’s weer te geven.

Je cijfers kiezen

Soms staat de onjuiste presentatie van cijfers zo ver van de werkelijkheid af dat je onvermijdelijk aan bedrog denkt. Vaak hebben deze situaties een moreel aspect: drugs, abortus enzovoort. Wanneer je je cijfers zeer zorgvuldig selecteert, in wat je kunt opvatten als cynische en immorele manipulatie van de feiten ten behoeve van persoonlijk gewin, kun je er soms voor zorgen dat die cijfers aangeven wat je maar wilt.

De Independent heeft zich jarenlang voor de legalisering van cannabis uitgesproken, maar in maart 2007 besloot het blad zijn koers te wijzigen. Een van de opties was simpelweg te verklaren dat men van gedachten was veranderd of dat men de morele problemen opnieuw wilde overwegen. In plaats daarvan werd die stap opgesmukt met wetenschap – zoals bangelijke fanatiekelingen altijd al hebben gedaan, of het nu ging om eugenetica of drooglegging – en gerechtvaardigd door middel van een fictieve verandering van de feiten. ‘De gevaren van cannabis’, zo luidde de schreeuwende kop op de voorpagina.

In 1997 hebben we in deze krant campagne gevoerd om deze drug uit de criminele sfeer te halen. Hadden we toen maar geweten wat we vandaag bekend kunnen maken […] Ongekende aantallen tieners hebben behandeling nodig ten gevolge van het roken van een zeer krachtig werkende vorm van cannabis die vijfentwintig keer zo sterk is als de hasj die tien jaar geleden werd verkocht.

In dit artikel wordt ons tweemaal verteld dat cannabis vijfentwintig keer zo sterk is als tien jaar geleden. De voormalige redacteur Rosie Boycott zei bij de dramatische herroeping van haar mening dat cannabis ‘dertig keer zo sterk was geworden’. In een artikel op een binnenpagina werd het probleem van de sterkte summier afgezwakt tot een ‘mogelijkheid’. Het dagblad gaf zelfs verwijzingen in verband met de cijfers: ‘De Forensic Science Service zegt dat cannabis aan het begin van de jaren negentig ongeveer 1 procent tetrahydrocannabinol (THC), het bewustzijnsveranderende bestanddeel, bevatte, maar dat dit tegenwoordig kan oplopen tot 25 procent.’

Dat is allemaal louter fantasie.

De gegevens van de Forensic Science Service liggen hier voor me, samen met de vroegere gegevens van het Laboratory of the Government Chemist, het Drug Control Program van de Verenigde Naties en het Monitoring Centre for Drugs and Drug Addiction van de Europese Unie. Ik ga je van die gegevens op de hoogte stellen, want ik ben van mening dat mensen bijzonder goed in staat zijn hun eigen beslissingen te nemen over belangrijke sociale en morele kwesties wanneer ze de feiten kennen.

De gegevens van het Laboratory of the Government Chemist komen uit de periode tussen 1975 en 1989. Hasj bevat 6 tot 10 procent THC, en marihuana 4 tot 6 procent. Er is geen duidelijke tendens te zien.

De Forensic Science Service geeft de recentere cijfers, die bij 1 hasj niet veel verandering laten zien; marihuana van eigen teelt is tweemaal zo krachtig geworden en het gehalte aan THC is van 6 procent tot 12 of 14 procent gestegen (2003-2005; zie de gegevens onder de tabel).

Jaar Sinsemilla% Hars% Traditionele’ geïmporteerde planten%
1995 5,8 Geen gegevens 3,9
1996 8,0 Geen gegevens 5,0
1997 9,4 Geen gegevens 4,0
1998 10,5 6,1 3,9
1999 10,6 4,4 5,0
2000 12,2 4,2 8,5
2001 12,3 6,7 Geen gegevens
2002 12,3 3,2 Geen gegevens
2003 12,0 4,6 Geen gegevens
2004 12,7 1,6 Geen gegevens
2005 14,2 6,6 Geen gegevens

Gemiddeld gehalte aan THC van in Engeland in beslag genomen cannabisproducten (Forensic Science Service, 1995-2002)

Cannabis krijgt maar zeer geleidelijk een sterkere werking die niet bijzonder opzienbarend is, en dat wordt grotendeels veroorzaakt door een groter aanbod van binnenshuis geteelde en veredelde marihuana.

‘Vijfentwintig keer zo sterk’, weet je nog? Dat werd herhaaldelijk, en nog wel op de voorpagina, beweerd.

Als je in de stemming bent de moraal en de politieke denkwijze van de Independent aan te vechten, evenals de duidelijke en schaamteloze corruptie ervan, kun je aanvoeren dat intensieve kweek binnenshuis van een plant die het ook buiten bijzonder goed doet een reactie is op de illegaliteit van het product. Het is gevaarlijk grote hoeveelheden cannabis te importeren. Het is gevaarlijk erop betrapt te worden de plant buiten te kweken. Dus is het verstandiger cannabis binnenshuis te telen, waarbij je dure ruimte moet gebruiken, maar een drug van een hogere concentratie produceert. Drugs van een hogere concentratie zijn per slot van rekening een natuurlijk gevolg van illegaliteit. Je kunt in Peckham geen cocabladeren kopen, maar wel cocaïne.

Natuurlijk kunnen we her en der op de Britse markt tegenwoordig uitzonderlijk sterke cannabis aantreffen, maar dat is altijd al zo geweest. Om op dit angstaanjagende cijfer uit te komen kan de Independent alleen maar de slechtste cannabis uit het verleden hebben vergeleken met de beste van tegenwoordig. Dat is absurd, en bovendien had je dertig jaar geleden precies hetzelfde kunnen uitvogelen als je dat had gewild: er zijn gegevens over afzonderlijke steekproeven beschikbaar, en in 1975 bevatte de minst sterke geanalyseerde marihuana 0,2 procent THC en de sterkste in 1978 12 procent. Volgens deze cijfers werd marihuana ‘zestig keer zo sterk’.

En deze angst is allerminst nieuw. Halverwege de jaren tachtig, tijdens de ‘oorlog tegen drugs’ van Ronald Reagan en de ‘zeg gewoon nee-campagne van Zammo in Grange HUI, beweerden Amerikaanse campagnevoerders dat cannabis veertien keer zo sterk was als in 1970, en tegenwoordig is hij vijfentwintig keer zo sterk als aan het begin van de jaren negentig. Betekent dit dat cannabis nu 350 maal zo sterk is als in 1970?

Dat slaat als een tang op een varken. Dat kan niet. Dan zou er meer THC in de plant moeten zitten dan het totale volume van de plant zelf. De materie zou dan gecondenseerd moeten zijn tot extreem dichte quark-gluon-plasma cannabis. Vertel de Independent alsjeblieft niet dat zoiets mogelijk is.

Cocaïne overspoelt het schoolplein

We kunnen nu overgaan tot wat interessantere statistische problemen met een ander verhaal over een onderwerp dat veel emoties oproept, namelijk een artikel uit The Times uit maart 2006 met de kop: ‘Cocaïne overspoelt het schoolplein’. ‘Gebruik van deze verslavende drug door kinderen verdubbelt binnen een jaar’, aldus de onderkop. Was dit waar?

In het persbericht over het regeringsonderzoek waarop het verhaal is gebaseerd, lees je: ‘Vrijwel geen verandering in de patronen van drugsgebruik, roken en drinken sinds 2000.’ Maar dit was een persbericht van de regering, en journalisten worden betaald om navraag te doen: misschien werd in het persbericht iets achtergehouden om falen van het landsbestuur aan het oog te onttrekken. Ook in de Telegraph verscheen het verhaal over ‘verdubbeling van cocaïnegebruik’, net als in de Mirror. Hebben journalisten dat nieuws, ondergesneeuwd in het rapport, zelf ontdekt?

Je kunt het volledige document van het internet downloaden. Het is een onderzoek onder 9000 kinderen tussen elf en vijftien jaar van 305 scholen. In de samenvatting van drie bladzijden staat opnieuw dat er geen verandering is opgetreden in de locaties waar drugsgebruik voorkomt. Als je het volledige rapport bekijkt, zie je de tabellen met ruwe gegevens: toen de kinderen werd gevraagd of ze in het afgelopen jaar cocaïne hadden gebruikt, zei in 2004 1 procent ja, en in 2005 2 procent.

Dus de kranten hadden gelijk en het gebruik was verdubbeld? Bijna alle cijfers bedroegen 1 procent of 2 procent. Ze waren allemaal afgerond. Ambtenaren zijn heel behulpzaam als je hen belt. De feitelijke cijfers waren 1,4 procent voor 2004 en 1,9 procent voor 2005, en niet 1 procent en 2 procent. Dus het gebruik van cocaïne was helemaal niet verdubbeld. Maar men wilde dit verhaal nog steeds dolgraag verdedigen: per slot van rekening was het cocaïnegebruik toch toegenomen?

Nee. Wat we zien, is een relatieve toename van risico van 35,7 procent of een absolute toename van risico van 0,5 procent. Wanneer we van de reële cijfers uitgaan, zeggen ongeveer 45 extra kinderen van de 9000 ‘ja’ op de vraag: ‘Heb je in het afgelopen jaar cocaïne gebruikt?’

Wanneer je zo’n geringe toename ziet, moet je je afvragen: is ze statistisch significant? Dat heb ik uitgerekend en het antwoord is ja, dat wil zeggen, bij een p-waarde van 0,05. Wat betekent ‘statistisch significant’? Het is gewoon een manier om aan te geven hoe groot de kans is dat het resultaat aan toeval toegeschreven kan worden. Soms gooi je met een volkomen normaal muntje vijf keer achter elkaar kop, vooral als je het lang genoeg blijft proberen. Stel je een pot voor met 980 blauwe en twintig rode knikkers. Als je er geblinddoekt knikkers uit haalt, pak je zo nu en dan – zij het zelden – drie rode knikkers achter elkaar, louter op basis van toeval. De gebruikelijke grens voor statistische significantie is een p-waarde van 0,5, waarmee je in feite zegt: ‘Als ik dit experiment honderd keer zou doen, verwacht ik vijf keer een onterecht positief resultaat, louter op basis van toeval.’

We keren terug naar het concrete voorbeeld van de kinderen op het schoolplein en stellen ons voor dat er geen enkel verschil was in het cocaïnegebruik, maar als je hetzelfde onderzoek honderd keer doet, zou je, louter op basis van toeval, een verschil kunnen vinden zoals we dat hier hebben gezien, gewoon omdat je meer kinderen kiest die deze keer cocaïne hebben gebruikt. Maar je verwacht dat dit in minder dan vijf van de honderd onderzoeken gebeurt.

Dus we hebben een toename van risico van 35,7 procent en die lijkt op het eerste gezicht statistisch significant, maar dit is een geïsoleerd cijfer. Het is misleidend aan ‘datamining’ te doen, dit cijfer uit zijn reële context weg te halen en te zeggen dat het significant is. Bij de statistische toets voor significantie ga je ervan uit dat ieder gegeven onafhankelijk is, maar hier vormen de gegevens een ‘cluster’, zoals statistici zeggen. Het gaat niet om cijfers, maar om echte kinderen van 305 scholen. Ze gaan met elkaar om, ze doen elkaar na, ze kopen drugs van elkaar, er zijn rages, modegrillen en onderlinge interacties.

Dat vijfenveertig kinderen extra cocaïne gebruiken, zou kunnen wijzen op alom om zich heen grijpen van cocaïnegebruik binnen één school, op cocaïnegebruik van enkele tientallen kinderen van enkele scholen of op enigszins toegenomen cocaïnegebruik op een wat groter aantal scholen. Of op vijfenveertig kinderen die in hun eentje, zonder hun vrienden, cocaïne in handen krijgen en consumeren, en dat lijkt me nogal onwaarschijnlijk.

Daardoor wordt onze toename onmiddellijk minder statistisch significant. De kleine toename van 0,5 procent was slechts significant omdat ze uit een grote steekproef met 9000 gegevens kwam – alsof je 9000 keer een muntje hebt opgegooid – en het enige wat bijna iedereen over onderzoeken als dit weet, is dat de resultaten van een grotere steekproef waarschijnlijk significanter zijn. Maar als de gegevens niet onafhankelijk zijn, moet je de steekproef in bepaalde opzichten als een kleinere steekproef behandelen, zodat de resultaten minder significant worden. Statistici zouden zeggen dat je ‘moet corrigeren op clustervorming’. Dit wordt gedaan met slimme wiskundige methoden waar iedereen hoofdpijn van krijgt. Je hoeft alleen maar te weten dat de redenen om ‘te corrigeren op clustervorming’ transparant, duidelijk en gemakkelijk te begrijpen zijn, zoals we zojuist hebben gezien (net als bij vele instrumenten betekent dit dat weten wanneer je een statistisch instrument moet gebruiken iets anders is dan begrijpen hoe het is geconstrueerd, al is het eerste even belangrijk). Wanneer je corrigeert op clustervorming, neemt de significantie van de resultaten sterk af. Zal onze toename van cocaïnegebruik, al verminderd van ‘verdubbeld’ naar ‘35,7 procent’, wel in stand blijven?

Nee. Want we hebben nog een laatste probleem met deze gegevens: er zijn er zoveel om uit te kiezen. Er staan tientallen soorten gegevens in het rapport: over oplosmiddelen, sigaretten, ketamine, cannabis enzovoort. Bij onderzoek is gebruikelijk dat we een bevinding slechts als significant aanvaarden als ze een p-waarde van 0,05 of minder heeft. Maar zoals we al hebben gezegd, betekent een p-waarde van 0,05 dat bij iedere honderd vergelijkingen vijf louter op basis van toeval positief zullen uitvallen. Op basis van dit rapport zou je tientallen vergelijkingen kunnen maken, en enkele ervan zouden zeker op een toename van gebruik hebben gewezen – maar slechts op basis van toeval, en het cijfer over cocaïne zou daar één van kunnen zijn. Als je twee dobbelstenen vaak genoeg opgooit, verschijnen er nogal eens driemaal achter elkaar twee zessen. Daarom voeren statistici een ‘correctie voor meervoudige vergelijkingen’ uit, een correctie voor heel erg vaak ‘met dobbelstenen gooien’. Net als corrigeren voor clustervorming heeft dit een uiterst sterke invloed op de gegevens en reduceert het de significantie van de bevindingen drastisch.

‘Data dredging’ is een gevaarlijk vak. Wanneer je niets van statistiek weet, zou je op het eerste gezicht kunnen zeggen dat uit dit regeringsrapport een significante toename van 35,7 procent van cocaïnegebruik blijkt. Maar de statistici die het hebben samengesteld waren op de hoogte van clustervorming en van de correctie van Bonferroni voor meervoudige vergelijkingen. Ze zijn niet dom en verdienen hun brood met statistiek.

Vermoedelijk daarom hebben ze zeer duidelijk in hun samenvatting, in het persbericht en in het volledige rapport gezegd dat er van 2004 tot 2005 geen verandering is opgetreden. Maar de journalisten wilden dat niet geloven: ze probeerden zelf de gegevens opnieuw te interpreteren, ze keken achter de schermen en dachten nieuws te hebben ontdekt. De toename van 0,5 procent – die op een geleidelijke tendens zou kunnen wijzen, maar die evengoed volkomen toevallig zou kunnen zijn – veranderde in een hoofdartikel in The Times over de verdubbeling van cocaïnegebruik. Het is mogelijk dat je een persbericht niet vertrouwt, maar als je niets van cijfers weet, neem je een groot risico wanneer je achter de schermen op zoek gaat naar een goed verhaal.

Goed, nu wat minder moeilijk

Er bestaan een paar doodeenvoudige middelen om belachelijke statistieken te produceren, en twee alom bekende favorieten zijn: een ongewone steekproef selecteren en die een domme vraag stellen. Stel dat 70 procent van alle vrouwen wil dat prins Charles zich niet meer mag bemoeien met openbare kwesties. O, wacht even – 70 procent van alle vrouwen die mijn website bezoeken willen dat. Je ziet waar we naartoe willen. Natuurlijk bestaat er bij onderzoeken waaraan mensen vrijwillig deelnemen zoiets als een selectiebias: alleen mensen die de moeite nemen een enquêteformulier in te vullen worden als deelnemers geregistreerd.

In de laatste dagen van 2007 gaf de Telegraph hiervan een prachtig voorbeeld. ‘Artsen zeggen nee tegen abortus in hun praktijk’ luidde de kop. ‘Huisartsen in opstand tegen de regering die hun wil toestaan abortussen in hun eigen praktijk uit te voeren, zo heeft de Daily Telegraph vernomen.’ Opstand? ‘Vier van de vijf huisartsen willen geen zwangerschappen beëindigen, ondanks toetsing van dit idee in proefonderzoeken van de NHS, ZO bleek uit een enquête.’

Waar kwamen deze cijfers vandaan? Uit een systematische enquête onder alle huisartsen, waarbij de artsen die niet reageerden herhaaldelijk een nieuwe oproep kregen? Werden ze tijdens hun werk gebeld? Of was het dan ten minste een schriftelijke enquête? Nee. Een stemming op een website waar artsen met elkaar kunnen chatten heeft tot dit baanbrekende nieuws geleid. Hier volgen de vraag en de keuzemogelijkheden:

‘Huisartsen zouden in hun praktijk abortussen moeten kunnen uitvoeren.’

Sterk mee eens / mee eens / ik weet het niet / niet mee eens / absoluut niet mee eens.

Laten we duidelijk zijn: ik begrijp deze vraag niet helemaal. Betekent ‘zouden moeten kunnen’ dat het mogelijk hoort te zijn of dat het zo zou moeten zijn? En onder welke voorwaarden? Als ze extra training, geld en tijd krijgen? Bij extra hulpmiddelen als het misgaat? Denk erom, dit is een website waar dokters – met alle respect – hun klachten deponeren. Zeggen ze misschien alleen maar ‘nee’ omdat ze mismoedig mopperen over nog meer werk?

Sterker nog, wat betekent ‘abortus’ hier precies? Als ik naar de opmerkingen op de website kijk, weet ik zeker dat heel veel dokters blijkbaar dachten dat het om operatieve ingrepen ging, en niet om de betrekkelijk veilige pil voor zwangerschapsonderbreking. Zo slim zijn dokters nu ook weer niet, zie je. Hier volgen enkele citaten:

Dit is een absurd idee. Hoe kunnen artsen ooit abortussen uitvoeren in hun eigen praktijk? Stel dat zich ernstige complicaties voordoen, zoals perforatie van baarmoeder en darmen?

Huisartsen komen in hun praktijk bij uitstek met veel infecties in aanraking. Het idee daar een steriele procedure in een buikorgaan uit te voeren is vloeken in de kerk.

Dit kan alleen, of liever gezegd, zou alleen moeten kunnen als huisartsen beschikken over een chirurgische polikliniek als onderdeel van hun praktijk, en wel met goed opgeleid personeel, zoals operatieverpleegkundigen, een anesthesist en een gynaecoloog […] Geen enkele operatie is zonder risico, en vermoedelijk hebben we een opleiding in de gynaecologie nodig om deze abortussen uit te kunnen voeren.

Waar zeuren we toch over? Laten we vooral allemaal abortussen uitvoeren, in onze praktijk, in onze huiskamer, in onze keuken, in onze garage en in de winkel op de hoek, net als vroeger.

En hier is mijn favoriete opmerking:

Ik vind dat deze vraag slecht geformuleerd is en ik hoop dat deze website de resultaten van de enquête niet aan de Daily Telegraph bekendmaakt.

Cijfers opkloppen

Het zou onjuist zijn aan te nemen dat de vergissingen die we tot nu toe hebben besproken beperkt blijven tot minder hoge maatschappelijke kringen, zoals die van artsen en journalisten. Sommige van de ernstigste voorbeelden komen uit de toplaag zelf.

Na een omvangrijk regeringsrapport meldden de media in 2006 dat er per week één moord wordt gepleegd door iemand met psychiatrische problemen. Psychiaters moeten beter hun best doen, zeiden de kranten, zodat deze moorden voorkomen kunnen worden. Natuurlijk stemmen we allemaal in met iedere verstandige maatregel om risicomanagement te verbeteren en geweld tegen te gaan, en het is altijd goed een publiek debat te houden over de ethiek van het opsluiten van psychiatrische patiënten (al zou ik ter wille van de rechtvaardigheid graag zien dat wordt gediscussieerd over preventieve detentie van alle potentieel gevaarlijke groepen, zoals alcoholisten, mensen die herhaaldelijk geweld plegen, mensen die personeel van het arbeidsbureau mishandelen enzovoort).

Maar om deze discussie te kunnen voeren moet je de wiskunde van het voorspellen van zeer zeldzame gebeurtenissen begrijpen. Laten we een concreet voorbeeld nemen: de hiv-test. Welke kenmerken van een diagnostische procedure meten we om te beoordelen wat het nut van zo’n test is? Statistici zouden zeggen dat de bloedtest voor hiv een zeer hoge ‘sensitiviteit’ heeft, namelijk 0,999. Dat betekent dat je 99,9 procent kans hebt dat de bloedtest positief is als je het virus bij je draagt. Ze zouden ook zeggen dat de test een zeer hoge ‘specificiteit’ heeft, namelijk 0,9999 – dus als je niet geïnfecteerd bent, bestaat er een kans van 99,99 procent dat de test negatief is. Een juweel van een bloedtest!*

≡ De cijfers zijn ongeveer juist en komen uit het uitstekende boek van Gerd Gigerenzer, Reckoning with Risk.

Maar als je ernaar kijkt vanuit het perspectief van de persoon die getest wordt, begint de wiskunde lichtelijk tegen de intuïtie in te gaan. Want vreemd genoeg verandert de betekenis, de voorspellende waarde, van de positieve of negatieve testuitslag van een individu in verschillende situaties, afhankelijk van de zeldzaamheid van de gebeurtenis die de test probeert te ontdekken. Hoe minder vaak de gebeurtenis in jouw populatie voorkomt, des te slechter wordt je test, ook als het dezelfde test is.

Dit is gemakkelijker te begrijpen aan de hand van concrete cijfers. Laten we zeggen dat 1,5 procent van de mannen uit een bepaald gebied die een hoog risico lopen, seropositief is. Aan 10.000 van deze mannen nemen we onze bijzonder goede bloedtest af, en we verwachten over het geheel genomen 151 positieve uitslagen: 150 mannen zijn echt seropositief, en één man krijgt ten onrechte een positieve uitslag, zoals we kunnen verwachten van een test die bij niet-seropositieve mannen eenmaal op de 10.000 keer een onjuiste uitslag geeft. Dus als je een positieve uitslag krijgt, is de kans dat je werkelijk seropositief bent 150 op 151. Het is een test met een zeer hoge voorspellende waarde.

Laten we nu dezelfde test afnemen bij een populatie waarvan ongeveer 1 op de 10.000 mensen seropositief is.5 Als we 10.000 mensen testen, kunnen we over het geheel genomen twee positieve resultaten verwachten. Eén persoon die echt seropositief is en één persoon met die onterecht positieve uitslag die we ook hier kunnen verwachten als we 10.000 niet-seropositieve mannen testen met een test die eenmaal in de 10.000 keer een onjuiste uitslag geeft.

Wanneer iets zelden voorkomt, wordt zelfs onze voorheen geweldige bloedtest nogal waardeloos. Voor de twee mannen met een positief testresultaat in deze populatie waarin maar 1 op de 10.000 mannen seropositief is, bestaat er maar 50 procent kans dat ze werkelijk seropositief zijn.

Laten we nu eens over gewelddadigheid nadenken.6 Het beste voorspellende instrument voor psychiatrisch geweld heeft een ‘sensitiviteit’ van 0,75 en een ‘specificiteit’ van 0,75. Het is moeilijker om een gebeurtenis bij mensen nauwkeurig te voorspellen; de menselijke geest en een menselijk leven zijn veranderlijk. Laten we zeggen dat 5 procent van de patiënten die een centrum voor geestelijke gezondheidszorg bezoeken binnen een jaar betrokken raakt bij een gewelddadig incident. Wanneer we dezelfde rekenmethode gebruiken als bij de hiv-tests, zou je voorspellende instrument met een sensitiviteit van 0,75 het achtenzestig van de honderd keer bij het verkeerde eind hebben. Bij ernstig geweld, dat per jaar bij 1 procent voorkomt, zou ons beste ‘0,75’ voorspellende instrument zevenennegentig keer op de honderd de verkeerde dader aanwijzen. Zou je zevenennegentig mensen preventief willen opsluiten om drie gewelddaden te voorkomen? En zou je die regel ook toepassen op alcoholisten en diverse andere nare asociale types?

Moord, de uiterst zeldzame misdaad in kwestie in dit rapport waartegen meer actie werd geëist, komt per jaar één keer op de 10.000 psychotische patiënten voor, zodat het aantal valse positieve resultaten zo hoog is dat ook de best voorspellende test geen enkel nut heeft.

Daarom hoeven we nog niet te wanhopen. Er kunnen maatregelen worden genomen en we kunnen altijd proberen het aantal schrijnende mislukkingen te reduceren, ook al is het moeilijk te weten te komen welk deel van de ‘wekelijkse moorden’ op een duidelijk falen van een systeem wijst, omdat achteraf bezien alles wat er is gebeurd onvermijdelijk tot die ene ramp lijkt te hebben geleid. Ik geef slechts aan hoe je de kans op zeldzame gebeurtenissen berekent. Wat je ermee doet, is jouw zaak.

Hoe je in de gevangenis terecht kunt komen

In 1999 verscheen de advocate Sally Clark voor de rechter op beschuldiging van moord op haar twee baby’s. De meeste mensen waren zich ervan bewust dat er een statistische fout was gemaakt bij de gerechtelijke procedure, maar slechts weinigen kenden het ware verhaal of de buitengewone statistische onwetendheid die bij deze zaak een rol speelde.

Bij haar proces werd aan professor Sir Roy Meadow, gespecialiseerd in kindermishandeling, gevraagd een deskundig advies te geven. Het is welbekend dat Meadow aangaf dat de kans dat twee kinderen uit hetzelfde gezin aan wiegendood sterven ‘1 op 73 miljoen’ zou zijn.

Dit was vanwege twee verschillende redenen een bijzonder problematisch bewijs: de ene is gemakkelijk te begrijpen, bij de andere moet je je hersenen laten zwoegen. Omdat je genoeg concentratievermogen hebt om de volgende twee bladzijden in je op te nemen, ben je daarna slimmer dan professor Sir Roy, de rechter van Sally Clark, haar advocaten, de rechters bij het hoger beroep en bijna alle journalisten en juridische commentatoren die verslag deden van de rechtszaak. We beginnen met de gemakkelijke reden.

De denkfout over interactieve factoren

Het cijfer ‘1 op 73 miljoen’ is dubieus, zoals nu door iedereen wordt erkend. De berekening was gebaseerd op 8543 × 8543, alsof de kansen op tweemaal een wiegendood in hetzelfde gezin onafhankelijk van elkaar waren. Dit geeft van meet af aan een verkeerde indruk, en iedereen kan begrijpen waarom dat zo is: er zouden omgevingsfactoren of genetische factoren in het spel kunnen zijn die op beide baby’s invloed zouden kunnen hebben. Maar wees niet al te tevreden over jezelf omdat je dit feit begrijpt. Ook wanneer we erkennen dat de kans op tweemaal een wiegendood in één gezin groter is dan 1 op 73 miljoen – laten we zeggen, 1 op 10.000 – dan is het nog steeds twijfelachtig of zo’n cijfer relevant is, zoals we nu zullen zien.

De denkfout van de openbare aanklager

De echte vraag bij deze rechtszaak is: wat doen we met dit onjuiste cijfer? In veel mediaberichten uit die tijd werd geconstateerd dat de kans 1 op 73 miljoen was dat de dood van de twee kinderen van Sally Clark op toeval berustte, dat wil zeggen, de kans dat ze onschuldig was. Veel mensen die bij de rechtszaak betrokken waren, leken achter deze opvatting te staan, en dit verzinsel blijft ons natuurlijk bij. Het is echter een voorbeeld van een bekende en goed gedocumenteerde vorm van onjuist redeneren die ‘de denkfout van de openbare aanklager’ wordt genoemd.

In één gezin zijn twee baby’s overleden. Op zichzelf is dit bijzonder zeldzaam. Wanneer zo’n zeldzame gebeurtenis heeft plaatsgevonden, moet de jury twee rivaliserende verklaringen van de dood van beide baby’s tegen elkaar afwegen: tweemaal een wiegendood of een dubbele moord. Onder normale omstandigheden, dus voordat er baby’s zijn overleden, is tweemaal een wiegendood bijzonder onwaarschijnlijk, en een dubbele moord ook. Maar nu er twee baby’s in één gezin overleden zijn, hoe zelden dat ook voorkomt, zijn de verklaringen – een dubbele moord of tweemaal een wiegendood – beide opeens bijzonder waarschijnlijk. Als we werkelijk voor statistici willen spelen, zouden we moeten weten wat relatief zeldzamer is: een dubbele moord of tweemaal een wiegendood. Men heeft geprobeerd de relatieve kansen op deze twee gebeurtenissen te berekenen, en in een artikel werd gezegd dat die kans uitkomt op ongeveer 2:1 ten gunste van de dubbele wiegendood.

Niet alleen werd deze doorslaggevende nuance van de denkfout van de openbare aanklager door niemand van de rechtbank opgemerkt, maar ze werd duidelijk ook niet opgemerkt bij het hoger beroep, waarbij de rechters naar voren brachten dat Meadow ‘uiterst zeldzaam’ had moeten zeggen in plaats van ‘1 op 73 miljoen’. Ze herkenden de fouten in de berekening en de denkfout over interactieve factoren – het gemakkelijke probleem hierboven – maar aanvaardden zijn cijfer nog steeds omdat ‘het een zeer algemeen punt vaststelde, namelijk de zeldzaamheid van een dubbele wiegendood’.

Zoals je nu begrijpt, was dat volkomen onjuist: de zeldzaamheid van een dubbele wiegendood is irrelevant, want een dubbele moord is ook zeldzaam. Binnen een volledige gerechtelijke procedure slaagde men er niet in nuances aan te brengen in hoe het cijfer moest worden geïnterpreteerd. Tot tweemaal toe.

Meadow was dom en is belasterd (misschien zeggen sommige mensen dat dit proces nog werd verergerd door de heksenjacht op kinderartsen die zich met kindermishandeling bezighouden), maar als het waar is dat hij de problemen bij de interpretatie van dit cijfer had moeten voorzien en opmerken, dan geldt dat ook voor de rest van de mensen die bij de rechtszaak waren betrokken: niet alleen kinderartsen horen statistische basiskennis te hebben, maar advocaten, rechters, journalisten, juryleden en griffiers ook. De denkfout van de openbare aanklager is bijvoorbeeld eveneens bijzonder relevant bij DNA-bewijsmateriaal, waarbij de interpretatie vaak draait om complexe wiskundige en contextuele kwesties. Iedereen die handelt in cijfers, ze gebruikt, ermee denkt en ermee overtuigt, laat staan dat hij mensen ermee opsluit, heeft de verantwoordelijkheid ze te begrijpen. Je hebt hierover alleen nog maar een populair-wetenschappelijk boek gelezen, en nu al kun je zien dat dit geen kinderspel is.

Verliezen bij de loterij

Vanavond is me iets heel vreemds overkomen. Ik was op weg naar deze lezing en reed de parkeerplaats op. En geloof het of niet, ik zag een auto met het kenteken ARW 357. Kun je het je voorstellen? Hoe groot was de kans dat ik van de miljoenen kentekens in deze staat juist dit vanavond zou zien? Verbazingwekkend…

Richard Feynman

Het is beslist mogelijk bijzonder veel pech te hebben. De Nederlandse verpleegster Lucia de Berk heeft zes jaar in de gevangenis gezeten omdat ze schuldig was bevonden aan zeven moorden en drie pogingen tot moord. Een ongewoon groot aantal mensen overleed terwijl zij dienst had, en dat was, naast wat bijzonder zwak indirect bewijsmateriaal, de inhoud van de aanklacht tegen haar. Ze heeft nooit bekend, ze bleef zeggen dat ze onschuldig was, en haar proces heeft tot een kleine verzameling theoretische artikelen in de statistische vakliteratuur geleid.7

Het vonnis was grotendeels gebaseerd op het cijfer ‘1 op 342 miljoen’. Ook al zouden we fouten in dit cijfer ontdekken, net als in het vorige verhaal – en reken maar dat dit gebeurt – dan nog zou het cijfer zelf grotendeels irrelevant zijn. Want zoals we al herhaaldelijk hebben gezien, is statistiek niet interessant vanwege de gecompliceerde berekeningen, maar vanwege de betekenis van de cijfers.

We krijgen hier bovendien een belangrijke les waarmee we allemaal ons voordeel kunnen doen: onwaarschijnlijke dingen gebeuren echt. Iemand wint iedere week de loterij en kinderen worden door de bliksem getroffen. Het is alleen vreemd en opzienbarend als er iets zeer, zeer specifieks en onwaarschijnlijks gebeurt als je deze specifieke gebeurtenis hebt voorspeld. *

≡ James Randi, goochelaar en ontmaskeraar van pseudo-wetenschap, schreef iedere ochtend bij het wakker worden op een kaartje ‘ik, James Randi, zal vandaag sterven’, gevolgd door de datum en zijn handtekening, en stak het in zijn zak. Hij heeft kortgeleden uitgelegd dat hij dit deed voor het geval hij werkelijk aan een volkomen onvoorspelbaar ongeluk zou overlijden.

Hier volgt een analogie.

Stel je voor dat ik met een enorm machinegeweer bij een grote houten schuur sta. Ik doe een blinddoek om en schiet, lachend als een gek, duizenden en duizenden kogels de schuurwand in. Ik laat het geweer vallen, loop naar de schuur en onderzoek, heen en weer lopend, de wand van boven tot onder en van links naar rechts. Ik ontdek een plek met drie kogelgaten dicht bij elkaar, teken er een cirkel omheen en verkondig trots dat ik een uitstekende scherpschutter ben.

Waarschijnlijk ben je het niet eens met zowel mijn methoden als mijn conclusies. Maar dit is precies wat er bij de rechtszaak van Lucia gebeurd is: de openbare aanklagers constateerden dat er tijdens de diensten van één verpleegster, in één ziekenhuis, in één stad, in één land en in de wereld zeven mensen waren overleden, en trokken daar vervolgens een cirkel omheen.

Hierbij wordt de hoofdregel overtreden van elk onderzoek waarbij statistiek een rol speelt, want de hypothese is niet terug te vinden in de resultaten. Voor je je gegevens met je statistische instrument bewerkt, moet je een specifieke hypothese hebben die je kunt toetsen. Als je hypothese afkomstig is uit een analyse van de gegevens, heeft het geen zin diezelfde gegevens opnieuw te analyseren om die hypothese te bevestigen.

Dit is een nogal complexe, filosofische en wiskundige vorm van circulair redeneren, maar in de rechtszaak deden zich ook concretere vormen van circulair redeneren voor. Om meer gegevens te verzamelen gingen de onderzoekers naar de ziekenhuisafdelingen om te zien of ze nog meer verdachte sterfgevallen konden ontdekken. Maar alle mensen aan wie werd gevraagd of ze zich Verdachte voorvallen’ herinnerden, wisten dat deze vragen hun werden gesteld omdat Lucia een seriemoordenares zou kunnen zijn. Het risico was groot dat ‘een verdacht incident’ synoniem zou worden met ‘Lucia was aanwezig’. Sommige plotselinge sterfgevallen waarbij Lucia niet aanwezig was, zouden per definitie niet worden ingecalculeerd: die waren niet verdacht, want Lucia was er niet bij.

Het wordt nog erger. ‘Ons werd gevraagd een lijst te maken van incidenten die zich tijdens of kort na de diensten van Lucia hadden voorgedaan’, zei een werknemer van het ziekenhuis. Zo werden meer patronen opgegraven, en werd het nog waarschijnlijker dat de onderzoekers meer verdachte sterfgevallen tijdens de diensten van Lucia zouden vinden. Ondertussen wachtte Lucia in de gevangenis op haar proces.

Zo creëer je een nachtmerrie.

Tegelijkertijd werd een enorme hoeveelheid logische statistische informatie vrijwel volledig genegeerd. Gedurende de drie jaar voordat Lucia op de genoemde afdeling ging werken, deden zich zeven sterfgevallen voor. In de drie jaar waarin ze op de afdeling werkte, stierven er zes mensen. Het is een heel rare gedachte dat het sterftecijfer op een afdeling omlaag zou gaan sinds het moment waarop een seriemoordenaar arriveert die aan het moorden slaat. Als Lucia hen allemaal vermoord had, zou niemand in de drie jaar dat zij er werkte een natuurlijke dood gestorven zijn.

Ja, maar aan de andere kant hield Lucia van de tarot leggen, zoals de openbare aanklager tijdens het proces onthulde. En haar persoonlijke dagboek maakte een beetje een rare indruk – passages eruit werden hardop voorgelezen. Dus misschien had ze het toch wel gedaan.

Maar het vreemdste van alles komt nog. Bij de berekening van zijn obligate, onjuiste en Meadow-achtige cijfer – deze keer ‘i op 342 miljoen’ – maakte de statisticus van de openbare aanklager een elementaire wiskundige fout. Hij combineerde afzonderlijke statistische toetsen door de p-waarden, de wiskundige beschrijving van de kansen of de statistische significantie, met elkaar te vermenigvuldigen. Dit is materie voor wiskundige fanatiekelingen en zal door de uitgever wel worden verwijderd, maar ik schrijf het toch op: je hoort p-waarden niet met elkaar te vermenigvuldigen, maar je koppelt ze aan elkaar met behulp van een slim instrument, bijvoorbeeld ‘de methode van Fisher voor het combineren van onafhankelijke p-waarden’.

Wanneer je p-waarden met elkaar vermenigvuldigt, gaan onschadelijke en kansrijke incidenten een uiterst onwaarschijnlijke indruk maken. Laten we zeggen dat je in twintig ziekenhuizen hebt gewerkt, die allemaal een onschadelijk patroon van incidenten vertoonden: p=0,5. Als je die onschuldige p-waarden van volkomen toevallige bevindingen met elkaar vermenigvuldigt, krijg je tenslotte een p-waarde van 0,5 in de twintigste macht, en dat is p<0,000001, en dat is zeer, zeer extreem significant. Als je vaak in een ander ziekenhuis gaat werken, word je door deze statistische fout en door de wijze van redeneren van deze statisticus automatisch verdacht. Heb je in twintig ziekenhuizen gewerkt? Vertel dat dan in vredesnaam niet aan de Nederlandse politie.