Als je wilt weten wie iemand is, vraag dan wat voor boeken hij leest. Dit principe bracht een groep studenten aan de School of Information op het idee om onderzoek te doen naar de literaire voorkeuren van kunstmatige intelligentie (AI). Daaruit blijkt dat aan programma’s als Chat-GPT nog het nodige mankeert.
Sinds de opkomst van de ontwikkelde burgerij in de achttiende eeuw biedt een blik in de boekenkast – en later in de platencollectie – een geliefd inkijkje in de persoonlijkheid en de normen en waarden van iemand die je nog niet zo goed kent. De Engelse romanschrijver Nick Hornby ging in High Fidelity zelfs zo ver dat hij zich afvroeg of je wel van mensen kunt houden die naar Phil Collins luisteren. Voor het antwoord had hij 320 pagina’s nodig.
Deze gewoonte kwam gedurende de coronapandemie weer in zwang, omdat bij Zoom- en Teams-vergaderingen de boekenkast op de achtergrond deskundigheid uitstraalde. Waarom zou dezelfde methode niet ook werken bij kunstmatige intelligentie, die immers pretendeert onze dagelijkse begeleider te zijn? Dat was In elk geval het idee van een groep economiestudenten aan de School of Information van de University of California in Berkeley.
Zij zijn niet de enigen die zich dat afvragen. Wat hebben Chat-GPT en GPT-4 eigenlijk allemaal gelezen? OpenAI, de onderneming die deze programma’s ontwikkelt, koestert het geheim van de data waarmee de programma’s getraind worden net zo streng als het algoritme. Wat het onderzoek van de studenten er niet makkelijker op maakt, maar ook niet kan tegenhouden. Op de School of Information hebben ze uit de antwoorden van de AI op de vraag naar de teksten waarop ze zich baseert, via een complexe methode een leeslijst met 572 titels opgesteld. Deze lijst is een perfect psychogram van de GPT-AI’s, om niet te zeggen een digitale canon.
Leeslijst
De eerste 20 plaatsen van de lijst worden bezet door klassieke Amerikaanse schoolboeken als Moby Dick, The adventures of Huckleberry Finn en 1984, klassieke literatuur (met liefst 2 titels van Jane Austen en Arthur Conan Doyle) en een paar populaire bestsellers als Fifty Shades of Grey. De zogenaamde wereldliteratuur komt er nauwelijks aan te pas en omvat behalve een paar vertalingen uit Azië en Afrika vooral literatuur in het Engels. (En mocht je je dat afvragen: geen enkel Duits boek).
Daarnaast is er een lijst met de top 50 van boeken die onder het auteursrecht vallen. Dit is een onderwerp apart, omdat het onderzoek daarmee en passant het bewijs levert dat OpenAI en andere AI-ondernemingen in hun trainingsbestanden wel degelijk auteursrechtelijk beschermd materiaal gebruiken. Als een AI correcte antwoorden op vragen over auteursrechtelijk beschermde werken genereert en die zelfs kan imiteren, is dat een indicatie dat deze werken zich in de trainingsdata bevinden. Dit is vooral een juridische kwestie, omdat het in de VS nog maar de vraag is of miljardenondernemingen als OpenAI deze boeken onder de fair use-clausule mag gebruiken en of ze in Europa onder de blanco-toestemming voor het verzamelen van gegevens voor onderzoeksdoeleinden vallen. Deze lijst met meer hedendaagse boeken overlapt de grote lijst voor een belangrijk deel. Maar er staan nog maar weinig moderne klassiekers op als Harper Lee’s To kill a mockingbird, John Steinbecks The grapes of wrath en Irvine Welsh’ Trainspotting. Science fiction en Fantasy zijn daarentegen zwaar oververtegenwoordigd met boeken als Lord of the Rings van J.R.R. Tolkien, The Hunger games van Suzanne Collins, Do Androids Dream of Electric Sheep? van Philip K. Dick, The Hitchhiker’s Guide to the Galaxy van Douglas Adams, Game of Thrones van George R.R. Martin en Dune van Frank Herbert.
‘Dit is de lijst van boeken die op het nachtkastje liggen van elke eenzame, heteroseksuele, witte, mannelijke nerd’
De digitale canon weerspiegelt daarmee exact de smaak van de in Silicon Valley dominante demografische groep. Of zoals tech-journalist Adam Rogers van Business Insider het treffend formuleerde: ‘Dit is de lijst van boeken die op het nachtkastje liggen van elke eenzame, heteroseksuele, witte, mannelijke nerd.’ In Amerika dan, moeten we erbij zeggen. Een testje met Duitse boeken, waarbij we dezelfde methode gebruiken: een invuloefening voor paar instapromans. Die Vermessung der Welt van Daniel Kehlmann herkent GPT-4 in een oogwenk, Italienische Reise van Goethe verwart het met Die Leiden des jungen Werther en Thomas Manns Buddenbrooks met Doktor Faustus. Unterleuten van Juli Zeh, Tschick van Wolfgang Herrndorf en Der Schwarm van Frank Schätzing: forget it.
Kennisdiagrammen
Het onderzoek verklaart niet alleen wat AI leest, maar ook hoe. Het probleem van de trainingsdata van AI-toepassingen gaat veel verder dan een blik in de boekenkast. De datasets waarmee deze machines worden getraind, worden door algoritmes gesorteerd in knowledge graphs, kennisdiagrammen waaruit de AI’s vervolgens hun waarschijnlijkheidsberekeningen afleiden.
Deze werkwijze bestaat allang. Ook de sorteermachines van eenvoudiger AI’s, zoals de algoritmes van sociale media Twitter en Facebook of de aanbevelingen van sites als Netflix en Amazon, combineren de afzonderlijke datapunten die ze verzamelen tot zulke kennisdiagrammen. Zo ontstaat in de computer een digitaal wereldbeeld dat uiteindelijk niet meer is dan een echo van alle ingevoerde data. Mensen kennen de computer echter een objectiviteit toe die is gebaseerd op het geloof dat de wiskunde een op zich onfeilbaar en logisch systeem is. Maar dat geldt niet eens in de algebra. Een neutrale dataset bestaat niet. Maar zelfs de bewering van sommige ontwikkelaars dat AI’s als Diffbot met het gehele internet zijn getraind, zou niet tot een heldere blik op de wereld leiden. Want het internet bestaat voor het grootste deel uit content en data in het Engels en wordt gedomineerd door Amerikaanse content.
‘Een neutrale dataset bestaat niet’
Het onderzoek uit Berkeley bevestigt dat volledig. De methodiek laat zich lezen als een mengeling van complexe data-analyse en invuloefeningen uit het vreemdetalenonderwijs in de laagste klassen van de middelbare school. Het vierkoppige onderzoeksteam noemt dat ‘data-archeologie’ en merkt op dat bij het onderzoeken van systemen met gesloten trainingsdatasets het aantal fouten zo groot is, dat ze voor de wetenschap onbruikbaar zouden zijn. Het team kon niet eens vaststellen of boeken bijvoorbeeld in hun geheel (memorized) of alleen als uittreksels en context (non-memorized) in de data voorkomen. Waarbij je dat van die boeken lezende AI’s sowieso met een flinke korrel zout moet nemen, aangezien de trainingsdatasets in de regel zo gigantisch zijn dat een afzonderlijk boek alleen kan worden verwerkt als het verbonden is met een kennisdiagram. De trainingsdata van GTP-4 hebben vermoedelijk een omvang van 1 petabyte (1PB). Een getal met 15 nullen. Een boek van 300 pagina’s omvat zo’n 800 kB (5 nullen). Dat betekent dat bijvoorbeeld Alice in Wonderland en Harry Potter and the stone of wisdom niet alleen op plaats 1 en 2 van de leeslijst staan omdat Chat-GPT de inhoud ervan heeft geïnternaliseerd, maar omdat deze boeken door de ontelbare fan-sites, kritieken en verwijzingen een zo zware weging hebben gekregen dat ze in zo’n diagram alle andere boeken verdringen.
Datawetenschap
Je moet je ook realiseren dat de leeslijst uit Berkeley niet is opgesteld op de faculteit literatuurwetenschappen, maar door onderzoekers van een instituut dat zich met datawetenschap bezighoudt. En dat hij, zoals bij zo veel van dit soort onderzoek, nog niet eens door de peer review is geweest.
Desondanks blijft hij exemplarisch. Want door dit onderzoek wordt de digitale canon ook in tweede optiek een zichzelf bevestigend systeem. Wat op zijn beurt weer heel goed de geest van machine learning weergeeft, waarbij op een bepaald punt de machine niet meer van data, maar van zichzelf leert.
‘Het zou niet de eerste keer zijn dat de VS een culturele canon voor de hele wereld opstelt’
Omdat de digitale wereld echter allang niet meer alleen technologie, maar ook een cultuur is, zal ze nog veel meer verhalen, waarden en voorkeuren gaan overdragen. Het zou niet de eerste keer zijn dat de VS een culturele canon voor de hele wereld opstelt. De laatste keer gebeurde dat na de Tweede Wereldoorlog, toen de Amerikaanse cultuur toonaangevend was met zijn jazz, films, verhalende literatuur, abstracte expressionisme in de schilderkunst en later met de subculturen van de beatniks, hippies, punkers en hiphoppers.
Als we een heel korte ideologische vergelijking mogen maken: Vlak na de Tweede Wereldoorlog bracht de Amerikaanse cultuur vooral democratische en emancipatorische waarden in een wereld waar de dictaturen van de As-mogendheden nog maar net waren verslagen en de wereldbeschouwingen van de tegenstanders van de VS in de Koude Oorlog als concurrenten werden gezien. We moeten niet per se afwachten of de vrijheidsbegrippen van de libertairen in Silicon Valley het algemene welzijn op de hele wereld zullen bevorderen. Ook al kwam Nick Hornby tot de conclusie dat je ook van mensen die naar Phil Collins luisteren heel goed kunt houden.

