Wijzen alle bewijzen dezelfde kant op? Dan klopt er vaak iets niet, zeggen wetenschappers. Het verschijnsel wordt de unanimiteitsparadox genoemd.

Als een verdachte onder het oude Joodse recht door alle rechters van de rabbijnse rechtbank unaniem schuldig werd bevonden, leidde dat automatisch tot vrijspraak. Dat klinkt tegenstrijdig, maar de wetgevers hadden gemerkt dat een unaniem oordeel vaak een teken was van een systeemfout in de rechtszaak. Zelfs al is de precieze aard van die fout niet meteen duidelijk, zo redeneerden ze, wanneer iets te goed lijkt om waar te zijn, is er waarschijnlijk ergens een fout gemaakt.

In Proceedings of The Royal Society A verschijnt binnenkort een artikel van een groep onderzoekers uit Australië en Frankrijk waarin die gedachte nader wordt onderzocht. Zij spreken van de ‘unanimiteitsparadox’.

‘Als veel getuigen onafhankelijk van elkaar unaniem een dader aanwijzen, denken we automatisch dat ze zich niet allemáál kunnen vergissen,’ zegt coauteur Derek Abbott, docent natuurkunde en elektrotechniek aan de University of Adelaide. ‘We beschouwen unanimiteit doorgaans als een teken van betrouwbaarheid. Maar de kans dat een groot aantal mensen unaniem is in hun oordeel, is eigenlijk heel klein. Ons vertrouwen in unanimiteit is dus onterecht. Deze “unanimiteitsparadox” toont aan dat we vaak veel minder zeker zijn van onze zaak dan we denken.’

Ze kunnen zich niet allemáál vergissen

De onderzoekers illustreren de paradox aan de hand van de Osloconfrontatie, waarbij getuigen in een rijtje mensen de dader moeten aanwijzen. Naarmate de groep unanieme getuigen groeit, blijkt de kans dat ze de juiste dader aanwijzen steeds verder te slinken, tot hij uiteindelijk even klein is als bij een willekeurige gok.

De systeemfout kan hierbij in allerlei factoren  schuilen: van de manier waarop de line-up aan de getuigen wordt gepresenteerd tot vooroordelen  die de getuigen koesteren. De onderzoekers tonen bovendien aan dat zelfs een heel geringe beïnvloeding in de opzet van zo’n line-up grote gevolgen kan hebben voor het eindresultaat. Als slechts 1 procent van de confrontaties een sturende factor bevat, begint de kans dat getuigen de juiste dader aanwijzen al vanaf drie unanieme identificaties te slinken. En al druist het tegen onze intuïtie in: juist als een van de vele getuigen ineens een andere verdachte aanwijst, verhoogt dat de kans dat de andere getuigen het wél bij het rechte eind hebben.

Kansrekening

Bayesiaanse statistiek. Neem bijvoorbeeld een muntje waarvan het gewicht zo is verdeeld dat je bij een toss in 55 procent van alle gevallen kop gooit. Als je dat muntje vaak genoeg opgooit, kun je zelf constateren dat je vaker kop dan munt gooit. Dat is geen teken dat de wetten van de kansrekening zijn veranderd, maar dat hier sprake is van een systeemfout. Hetzelfde geldt voor een grote groep unanieme getuigen: de kans daarop is zo klein dat de kans op een systeemfout statistisch gezien groter is.

Volgens de onderzoekers hebben we vaker met deze paradox te maken dan we denken. Grootschalige unanieme eensgezindheid kan positief zijn, maar alleen als er niet of nauwelijks van ongewenste beïnvloeding sprake is.

Als voorbeeld noemt Abbott een proef waarin getuigen een appel moeten aanwijzen die tussen een rijtje bananen ligt. Dat is zo’n gemakkelijke opgave dat je het praktisch niet fout kúnt doen, waardoor de kans op grootschalige unanieme eensgezindheid veel groter is. Maar een dader aanwijzen in een rijtje mensen is veel ingewikkelder dan een appel aanwijzen tussen een rij bananen. In experimenten met geënsceneerde misdaden waarbij getuigen alleen een glimp van de vluchtende dader opvangen, blijken ze in 48 procent van de gevallen de verkeerde aan te wijzen. In zulke situaties is de kans op grootschalige unanieme overeenstemming dus heel klein. Maar als het gaat om getuigen die onafhankelijk van elkaar een maand lang door de dader zijn gegijzeld, zal het percentage foute identificaties veel lager liggen. Dan komen de resultaten eerder in de buurt van de proef met appels en bananen dan van die met een vluchtende dader.

Ons vertrouwen in unanimiteit is onterecht

De unanimiteitsparadox is niet alleen van belang voor de rechtspraak. Een andere belangrijke toepassing die de onderzoekers in hun artikel noemen, betreft cryptografie. Data worden vaak versleuteld door te verifiëren of een door de wederpartij aangereikt groot getal deelbaar is of juist ondeelbaar (een priemgetal).

Eén manier om dat te verifiëren is door de Miller-Rabin-priemgetaltest zo vaak uit te voeren dat de kans dat je een deelbaar getal per ongeluk voor een priemgetal aanziet extreem laag is geworden: een kans van 2128 wordt daarbij doorgaans aanvaardbaar geacht. De systeemfout waarmee je in deze situatie rekening moet houden, is een computerstoring. De meeste mensen staan niet stil bij de mogelijkheid dat kosmische straling ergens in de computer een bitje omgooit, met als mogelijk gevolg dat de test ineens een deelbaar getal voor een priemgetal aanziet. De kans dat zoiets gebeurt, is immers extreem klein, ongeveer 1013 per maand. Maar daarmee is die kans wel groter dan 2128. Dus al is de kans op zo’n storing nog zo miniem, hij overschrijdt het gewenste veiligheidsniveau. Daardoor kan het versleutelingsprotocol veiliger lijken dan het in werkelijkheid is.

Resultaten die lijken te wijzen op een hoge mate van veiligheid, zijn dan waarschijnlijk eerder het gevolg van de computerstoring. Om de beveiliging werkelijk op het gewenste niveau te krijgen, adviseren de onderzoekers om de kans op deze ‘verborgen’ fouten tot bijna nul terug te brengen.

https://www.youtube.com/watch?v=s4F4eQXgXmc

De unanimiteitsparadox mag dan tegen onze intuïtie indruisen, de onderzoekers leggen uit dat het begrijpelijk wordt zodra we over alle informatie beschikken. ‘Net als met de meeste van dit soort “paradoxen”  is het niet per se zo dat onze intuïtie nou zo slecht  is, onze intuïtie is alleen slecht geïnformeerd,’ zegt Abbott. ‘In deze gevallen kijken we vreemd op omdat we er over het algemeen niet bij stilstaan dat het herkenningspercentage bij getuigen eigenlijk heel laag is. Of dat een fout bitje in een computer bij cryptografie zulke grote gevolgen kan hebben.’

De onderzoekers wijzen op de verwantschap tussen de unanimiteitsparadox en de Duhem-Quine-stelling. Volgens die stelling kun je nooit een afzonderlijke hypothese testen, maar test je altijd een groep samenhangende hypothesen. Zo wordt bij een experiment nooit alleen een bepaald verschijnsel onderzocht, maar wordt ook het correct functioneren  van de gebruikte instrumenten op de proef gesteld. Bij de unanimiteitsparadox zijn het manco’s in de methoden (de ‘aanvullende hypothesen’) waardoor twijfel aan het eindresultaat ontstaat.

Voorbeelden van de unanimiteitsparadox

Er zijn nog allerlei andere terreinen waar de unanimiteitsparadox zich voordoet. Hier een paar voorbeelden, in Abbotts eigen woorden:

1. Het recente Volkswagen-schandaal is een goed voorbeeld. Een chip was geprogrammeerd om de motor in testsituaties in een modus te laten draaien waarbij hij minder dieselgassen uitstoot. De werkelijke uitstoot tijdens het rijden op de weg was veel hoger. De lage testuitslagen waren veel te constant, ‘te mooi om waar te zijn’. Het onderzoeksteam dat Volkswagen heeft ontmaskerd, werd achterdochtig toen bleek dat de uitstoot van vijf jaar oude auto’s praktisch even laag was als die van gloednieuwe auto’s! Die extreme gelijkmatigheid verried het systematische bedrog van de sjoemelchip.

2. Een ander beroemd geval van overweldigend bewijsmateriaal dat ‘te mooi om waar te zijn’ was, betreft een reeks misdaden in de periode 1993-2008. Toen werd op zo’n vijftien plaatsen delict in Frankrijk, Duitsland en Oostenrijk steeds hetzelfde vrouwelijke DNA aangetroffen. De mysterieuze moordenaar kreeg de bijnaam het Spook van Heilbronn en is nooit opgespoord. Het DNA-bewijs was namelijk consistent en onweerlegbaar, maar ondeugdelijk. Het bleek om een systeemfout te gaan. De voor de verzamelde DNA-sporen gebruikte wattenstaafjes waren in de fabriek waar ze vandaan kwamen per ongeluk door een en dezelfde vrouw met haar DNA vervuild.

3. Bij verkiezingen vinden we het vaak jammer als onze partij slechts met een vrij kleine marge wint. We zouden willen dat de regering van onze voorkeur met unanieme stemmen wordt gekozen. Maar als zoiets daadwerkelijk gebeurt, denken we al snel aan een systeemfout in de vorm van verkiezingsfraude. Als een partij in een gezonde democratie de verkiezingen met een kleine marge wint, moeten we niet mopperen op de ‘domkoppen’ die op de oppositie hebben gestemd, maar blij zijn dat die kiezers met hun tegenstem de integriteit van de democratie in stand houden.

In elk experiment is ook sprake van ‘ruis’

4. Theorie en experiment gaan in de wetenschap hand in hand en moeten elkaar bevestigen. In elk experiment is ook sprake van ‘ruis’, en daar moet je rekening mee houden. De geschiedenis van de wetenschap kent diverse beroemde experimenten waarvan de resultaten te mooi waren om waar te zijn, met soms felle controverses tot gevolg. De beroemdste zijn de proef van Millikan om met een druppel olie de lading van een elektron te bepalen en Mendels proeven met plantenveredeling. Als resultaten al te mooi zijn en geen spoor van ruis of afwijkingen bevatten, heb je gerede grond om te vermoeden dat de onderzoeker selectief is omgesprongen met zijn data.

5. In grote organisaties heerst bij vergaderingen tegenwoordig de sterke neiging om naar unanieme besluitvorming te streven. Bij de beoordeling van nieuwe sollicitanten of van de kritieke prestatie-indicatoren (KPI’s) van de organisatie is men geneigd te blijven discussiëren tot alle aanwezigen het eens zijn. Als een of twee leden in het gezelschap dwarsliggen, wil de rest van de commissie hen eerst overtuigen voor ze verdergaan. Maar ons onderzoek rechtvaardigt de conclusie dat je die tegenspraak juist moet koesteren. Een wijze commissie accepteert dat verschil van mening simpelweg, en legt het vast in de notulen. Dat daarin dan sprake is van verschil van inzicht is geen zwakte, maar juist een kracht: een teken dat er minder kans is op een systeemfout.

6. Eugene Wigner had het ooit over ‘de onredelijke effectiviteit van wiskunde’ om zijn verwondering  uit te drukken over het feit dat natuurwetenschappelijke verschijnselen zich zo goed laten uitdrukken in wiskundige formules. In feite zei Wigner daarmee dat de wiskunde zelf te mooi is om waar te zijn. In werkelijkheid worden moderne apparaten allang niet meer beschreven door keurige wiskundige vergelijkingen, maar door empirische formules die zijn ingebed in simulatiesoftware. Voor sommige fundamentele wetenschappelijke vragen, vooral  op het vlak van complexe systemen, zoeken we de oplossing tegenwoordig eerder in big data  en kunstmatige intelligentie dan in wiskunde. De analytische wiskunde zoals we die kenden, bood heus geen pasklare oplossing voor alle verschillende soorten problemen. Hoe kwamen  we dan toch aan dat verleidelijke beeld dat wiskunde ‘onredelijk effectief’ was?

Doordat we  een systematisch vooroordeel ontwikkelden: tegenover elk geslaagd wetenschappelijk artikel met een mooie, elegante formule staan immers veel meer afgekeurde formules die nooit worden gepubliceerd en die we dus nooit te zien krijgen.  De wiskunde die we onder ogen krijgen, is een uiterst selectieve greep uit het geheel.  

Auteur: Lisa Zyga
Vertaler: Frank Lekens

Phys.org
Isle of Man | phys.org

Website over wetenschap, onderzoek en technologie.  De onderwerpen variëren  van natuur- en scheikunde tot ruimtevaart en nanotechnologie. Zeer populair onder vakmensen.

Recent verschenen

Nog niet bang voor een Britse dictatuur? Toch is daar alle reden toe

Europese autosector in zwaar weer door concurrentie van Chinese auto’s

Onderzoek: veiligheidsregels van ChatGPT blijken makkelijk te omzeilen

Een unaniem oordeel? Dan klopt er iets niet