Het probleem met de wetenschap is dat zoveel er gewoon niet is. Afgelopen zomer kondigde de Open Science Collaboration aan dat het had geprobeerd honderd gepubliceerde psychologie-experimenten te repliceren, bemonsterd uit drie van de meest prestigieuze tijdschriften in het veld. Wetenschappelijke beweringen berusten op het idee dat experimenten die onder vrijwel identieke omstandigheden worden herhaald, ongeveer dezelfde resultaten zouden moeten opleveren, maar tot voor kort hadden maar weinigen de moeite genomen systematisch te controleren of dit inderdaad het geval was. De OSC was de grootste poging tot nu toe om de resultaten van een veld te controleren en de meest schokkende. In veel gevallen hadden ze origineel experimenteel materiaal gebruikt en soms zelfs uitgevoerd onder begeleiding van de oorspronkelijke onderzoekers. Van de studies die oorspronkelijk positieve resultaten hadden gerapporteerd, bleek een verbazingwekkend 65-percentage geen statistische significantie voor replicatie te vertonen, en veel van de rest vertoonden sterk verminderde effectgroottes.
Hun bevindingen kwamen in het nieuws en werden al snel een club om de sociale wetenschappen te bashen. Maar het probleem is niet alleen met psychologie. Er is een onuitgesproken regel in de farmaceutische industrie dat de helft van al het academische biomedische onderzoek uiteindelijk vals zal blijken te zijn, en in 2011 besloot een groep onderzoekers bij Bayer het te testen. Kijkend naar zevenenzestig recente geneesmiddelenontdekkingsprojecten op basis van preklinisch kankerbiologisch onderzoek, kwamen ze erachter dat in meer dan 75 procent van de gevallen de gepubliceerde gegevens niet overeenkwamen met hun interne pogingen om te repliceren. Dit waren geen studies gepubliceerd in fly-by-night tijdschriften over oncologie, maar blockbuster-onderzoek in Science, Nature, Cell en dergelijke. De onderzoekers van Bayer verdronken in slechte studies, en dit was deels te danken aan de mysterieus dalende opbrengsten van medicijnpijpleidingen. Misschien hebben zoveel van deze nieuwe medicijnen geen effect omdat het basisonderzoek waarop hun ontwikkeling was gebaseerd niet geldig is.
Wanneer een onderzoek niet kan worden gerepliceerd, zijn er twee mogelijke interpretaties. De eerste is dat, zonder medeweten van de onderzoekers, er een echt verschil was in de experimentele opzet tussen het oorspronkelijke onderzoek en de mislukte replicatie. Deze worden in de volksmond 'behangeffecten' genoemd, de grap is dat het experiment werd beïnvloed door de kleur van het behang in de kamer. Dit is de gelukkigst mogelijke verklaring voor het niet reproduceren: het betekent dat beide experimenten feiten over het universum hebben onthuld, en we hebben nu de mogelijkheid om te leren wat het verschil tussen hen was en een nieuw en subtieler onderscheid in onze theorieën op te nemen.
De andere interpretatie is dat de oorspronkelijke bevinding onjuist was. Helaas toont een ingenieus statistisch argument aan dat deze tweede interpretatie veel waarschijnlijker is. Voor het eerst verwoord door John Ioannidis, een professor aan de Stanford University's School of Medicine, vindt dit argument plaats door een eenvoudige toepassing van Bayesiaanse statistieken. Stel dat er honderd en één stenen zijn in een bepaald veld. Een van hen heeft een diamant erin, en gelukkig heb je een diamant-detecterend apparaat dat 99 procent nauwkeurigheid adverteert. Na ongeveer een uur van het verplaatsen van het apparaat, waarbij elke steen op zijn beurt wordt onderzocht, knipperen plotseling alarmen en sirenes huilen terwijl het apparaat op een veelbelovend ogende steen wordt gericht. Wat is de kans dat de steen een diamant bevat?
De meesten zouden zeggen dat als het apparaat 99 procentnauwkeurigheid adverteert, er een 99 procent kans is dat het apparaat een diamant correct herkent, en een 1 procent kans dat het een vals-positieve meting heeft gegeven. Maar bedenk: van de honderd-en-één stenen in het veld is er maar één echt een diamant. Toegegeven, onze machine heeft een zeer grote kans om correct een diamant te verklaren. Maar er zijn veel meer diamantvrije stenen, en hoewel de machine slechts een 1 procent kans heeft om elk van hen valselijk als een diamant te verklaren, zijn er honderd. Dus als we met de detector over elke steen in het veld zouden zwaaien, zou het gemiddeld twee keer klinken - één keer voor de echte diamant en één keer wanneer een verkeerde meting werd geactiveerd door een steen. Als we alleen weten dat het alarm is afgegaan, zijn deze twee mogelijkheden ongeveer even waarschijnlijk, waardoor we een kans van ongeveer 50 procent hebben dat de steen echt een diamant bevat.
Dit is een vereenvoudigde versie van het argument dat Ioannidis van toepassing is op het wetenschapsproces zelf. De stenen in het veld zijn de verzameling van alle mogelijke testbare hypothesen, de diamant is een veronderstelde verbinding of effect dat waar is, en het diamantdetectieapparaat is de wetenschappelijke methode. Een enorme hoeveelheid hangt af van de proportie van mogelijke hypothesen die waar blijken te zijn, en van de nauwkeurigheid waarmee een experiment waarheid kan onderscheiden van valsheid. Ioannidis laat zien dat voor een grote verscheidenheid aan wetenschappelijke instellingen en velden de waarden van deze twee parameters helemaal niet gunstig zijn.
Overweeg bijvoorbeeld een team van moleculaire biologen die onderzoeken of een mutatie in een van de ontelbare duizenden menselijke genen verband houdt met een verhoogd risico op Alzheimer. De kans dat een willekeurig geselecteerde mutatie in een willekeurig geselecteerd gen precies dat effect heeft, is vrij laag, dus net als bij de stenen in het veld, is een positieve bevinding waarschijnlijker dan niet vals - tenzij het experiment ongelooflijk succesvol is in het sorteren de tarwe van het kaf. Ioannidis vindt inderdaad dat in veel gevallen het benaderen van zelfs 50 procent echte positieven onvoorstelbare nauwkeurigheid vereist. Vandaar de opvallende titel van zijn artikel: "Waarom de meeste gepubliceerde onderzoeksresultaten onjuist zijn."