DALL·E 2023 05 31 14.50.49 Visualize how AI works in an colourful artwork


Doordat de populariteit van kunstmatige intelligentie toeneemt, groeit de vraag naar grote, kwalitatief goede datasets. Maar die zijn schaars. ‘Een data-landjepik zal niet lang meer op zich laten wachten.’

Nog niet zo lang geleden vroegen analisten zich openlijk af of kunstmatige intelligentie (AI) de dood zou betekenen voor Adobe, een maker van software voor creatieve types. Nieuwe tools als DALL-E 2 en Midjourney, die beelden uit tekst toveren, leken de fotobewerkingsprogramma’s van Adobe overbodig te maken. Afgelopen april publiceerde Seeking Alpha, een financiële nieuwssite, nog een artikel met de kop: ‘Wordt AI de dood voor Adobe?’

Verre van. Adobe heeft zijn database met honderden miljoenen stockfoto’s gebruikt om zijn eigen suite van AI-tools te bouwen, Firefly gedoopt. Sinds de software afgelopen maart is vrijgegeven zijn er al meer dan een miljard beelden mee gecreëerd, zegt Dana Rao, een leidinggevende bij het bedrijf. Door niet naar beelden op internet te zoeken, wat concurrenten deden, heeft Adobe de steeds verhitter wordende discussie over auteursrechten die de industrie nu achtervolgt weten te omzeilen. De aandelenkoers van het bedrijf is sinds de lancering van Firefly met 36 procent gestegen.

Adobes triomf over de zwartkijkers werpt ook in bredere zin een licht op de strijd om dominantie in de zich snel ontwikkelende markt voor AI-tools. De supergrote modellen die de nieuwste golf zogeheten ‘generatieve’ AI aandrijven maken gebruik van gigantische hoeveelheden data. Nadat ze het internet al flink hebben afgegraasd., vaak zonder toestemming, zijn modelbouwers nu op zoek naar nieuwe databronnen om de razende honger te stillen. Ondertussen bekijken bedrijven die over enorme hoeveelheden data beschikken hoe ze die het best te gelde kunnen maken. Een data-landjepik zal niet lang meer op zich laten wachten.

De twee essentiële ingrediënten voor een AI-model zijn datasets, waarop het systeem wordt getraind, en verwerkingskracht, waarmee het model relaties binnen en tussen deze datasets detecteert. Deze twee ingrediënten zijn tot op zekere hoogte substituten: een model kan worden verbeterd door ofwel meer data in te voeren ofwel meer verwerkingskracht toe te voegen. Dat laatste wordt echter bemoeilijkt door een tekort aan gespecialiseerde AI-chips, zodat modelbouwers dubbel gefocust zijn op het zoeken naar data.

Hoogwaardige tekst

De vraag naar data groeit zo snel dat de voorraad hoogwaardige tekst die voor training beschikbaar is in 2026 misschien uitgeput zal zijn, schat onderzoeksbureau Epoch AI. De laatste AI-modellen van techgiganten Google en Meta zijn naar wordt aangenomen getraind op meer dan een biljoen woorden. Ter vergelijking: het totale aantal Engelse woorden op Wikipedia bedraagt zo’n vier miljard.

Niet alleen de omvang van de datasets telt. Hoe beter de data, des te beter het model. Op tekst gebaseerde modellen zijn idealiter getraind op uitgebreide, goed geformuleerde, feitelijk juiste geschriften, zegt Russell Kaplan van data-startup Scale AI. Bij modellen waarin deze informatie wordt ingevoerd is er een grotere kans dat ze output van overeenkomstige hoge kwaliteit leveren. Op diezelfde manier geven AI-chatbots betere antwoorden wanneer ze wordt gevraagd hun werking stap voor stap uit te leggen, waardoor de vraag naar bronnen als leerboeken die dat ook doen toeneemt. Gespecialiseerde informatiesets zijn ook in trek, omdat die het mogelijk maken modellen te finetunen voor meer nichetoepassingen. Nadat Microsoft in 2018 voor 7,5 miljard dollar GitHub had aangekocht, een online platform voor de opslag van softwareprogramma’s, was het makkelijker om een AI-tool voor het schrijven van programma’s te ontwikkelen.

‘In Amerika is er al een aantal rechtszaken tegen modelbouwers aangespannen wegens inbreuk op het auteursrecht’

Naarmate de vraag naar data toeneemt wordt het steeds moeilijker om er toegang toe te krijgen, omdat contentmakers nu compensatie eisen voor materiaal dat in AI-modellen is ingevoerd. In Amerika is er al een aantal rechtszaken tegen modelbouwers aangespannen wegens inbreuk op het auteursrecht. Een groep schrijvers, onder wie komiek Sarah Silberman, heeft een aanklacht ingediend tegen OpenAI, de maker van de AI-chatbot ChatGPT, en tegen Meta. Ook heeft een groep kunstenaars Stability AI aangeklaagd, een bouwer van tekst-naar-beeldtools, en Midjourney.

Het resultaat van dit alles is dat AI-bedrijven om het hardst deals proberen te sluiten voor het veiligstellen van databronnen. Afgelopen juli tekende OpenAI een contract met nieuwsagentschap Associated Press om toegang te krijgen tot hun tekstarchief. Ook heeft het bedrijf kortegeleden een uitgebreidere overeenkomst gesloten met Shutterstock, een leverancier van stockfoto’s, waarmee ook Meta een deal heeft. Op 8 augustus jongstleden werd gemeld dat Google in gesprek is met platenlabel Universal Music over het gebruik van artiestenstemmen voor een AI-tool voor het schrijven van songs. Vermogensbeheerder Fidelity heeft verklaard te zijn benaderd door techbedrijven die toegang willen tot zijn financiële data. Ook gaan er geruchten over AI-labs die de Britse omroep BBC benaderen voor toegang haar foto- en filmarchief. Een ander doelwit is naar verluidt JSTOR, een digitale bibliotheek van wetenschappelijke tijdschriften.

Bezitters van informatie profiteren van hun sterkere onderhandelingspositie. Reddit, een discussieforum, en Stack Overflow, een vraag-en-antwoordsite die populair is bij programmeurs, hebben de toegangskosten voor hun data verhoogd. Beide websites zijn extra waardevol omdat gebruikers gewenste antwoorden ‘upvoten’, waardoor modellen weten welke het relevantst zijn. Socialemediasite Twitter (inmiddels bekend als X) heeft maatregelen genomen om het scrapen door bots te beperken en vraagt nu geld voor toegang tot zijn data. Elon Musk, de onberekenbare eigenaar, is van plan met behulp van de data een eigen AI-bedrijf te beginnen.

Datavliegwiel

Als gevolg hiervan zijn modelbouwers hard bezig om de kwaliteit van de input waarover ze al beschikken te verbeteren. Veel AI-labs hebben legers van data-annotators in dienst voor taken als het labelen van beelden en het beoordelen van antwoorden. Een deel van dat werk is complex; in één advertentie voor zo’n baan wordt een masterdiploma of doctoraat in de biowetenschappen gevraagd. Maar vaak is het minder ingewikkeld en wordt het uitbesteed aan landen als Kenia waar arbeid goedkoop is.

AI-bedrijven verzamelen ook data via interacties tussen gebruikers en hun tools. Vaak gebeurt dat in de vorm van een feedbackmechanisme, waarbij gebruikers aangeven wat voor output nuttig is. De tekst-naar-beeldgenerator van Firefly laat gebruikers uit één tot vier opties kiezen. Bard, de chatbot van Google, stelt drie antwoorden voor. Gebruikers kunnen ChatGPT een duim omhoog of een duim omlaag geven wanneer die antwoord op vragen geeft. Die informatie kan als input in het onderliggende model worden gestopt en, om met de Nederlandse Douwe Kiela, medeoprichter van de startup Contextual AI, te spreken, als ‘datavliegwiel’ fungeren. Een nog betere graadmeter voor de kwaliteit van de antwoorden van de chatbot is of gebruikers de tekst kopiëren en ergens anders in plakken, voegt hij eraan toe. Het analyseren van zulke informatie heeft Google snel geholpen om zijn vertaaltool te verbeteren.

‘Vaak wordt het werk uitbesteed aan landen als Kenia waar arbeid goedkoop is’

Er is echter één databron die grotendeels onbenut blijft: de informatie die aanwezig is binnen de muren van de zakelijke klanten van de techbedrijven. Veel bedrijven beschikken, vaak zonder het te weten, over enorme hoeveelheden nuttige data, van transcripten van callcenters tot cijfers over consumentenbestedingen. Zulke informatie is vooral waardevol omdat er modellen voor specifieke zakelijke doeleinden mee kunnen worden gefinetuned, zoals het beantwoorden van klantvragen door callcentermedewerkers of het stimuleren van de verkoop door bedrijfsanalisten.

Maar het valt niet altijd mee om die rijke bron aan te boren. Roy Singh van adviesbureau Bain merkt op dat de meeste bedrijven van oudsher weinig aandacht besteden aan de verschillende soorten omvangrijke maar ongestructureerde datasets die uiterst nuttig zouden blijken voor het trainen van AI-tools. Dikwijls zijn deze over tal van systemen verspreid en in bedrijfsservers begraven in plaats van opgeslagen in de cloud.

Door die informatie te ontsluiten zouden bedrijven beter in staat zijn AI-tools aan te passen aan hun specifieke behoeften. De techgiganten Amazon en Microsoft bieden nu tools aan om bedrijven te helpen hun ongestructureerde datasets beter te beheren, evenals Google. Christian Kleinerman van databasebedrijf Snowflake zegt dat de zaken uitstekend gaan nu klanten proberen ‘datasilo’s af te breken’. De startups schieten als paddenstoelen uit de grond. Afgelopen april haalde Weaviate, een op AI gericht databasebedrijf, 50 miljoen dollar op en wordt sindsdien gewaardeerd op 200 miljoen. Nauwelijks een week later haalde concurrent PineCone 100 miljoen dollar op, met een huidige waardering van 750 miljoen. Eerder deze maand haalde Neon, een andere database-startup, nog eens 46 miljoen dollar op aan financiering. Het gevecht om data is nog maar net begonnen.


Deel dit artikel


Recent verschenen