'Data is goud waard in het AI-tijdperk'

De Autoriteit Persoonsgegevens (AP) maakt zich zorgen over plannen van Meta om AI-modellen te trainen met openbare data, zoals foto's en berichten op Facebook en Instagram. Het gebruik van deze data voor AI is echter niet nieuw: AI-modellen worden al getraind op gigantische hoeveelheden semi-openbare data, zowel van individuen als (commerciële) instellingen. Er is striktere wetgeving nodig om dit datagebruik te beperken, of in ieder geval te zorgen voor een vergoeding voor de data-eigenaren.

Om de bekwaamste AI-modellen te trainen is zoveel mogelijk data nodig. Omdat alle publieke data inmiddels al gebruikt wordt, zetten techgiganten in op twee nieuwe datatypes: data van platformgebruikers en consumenten (bijvoorbeeld Facebookberichten), en semi-publieke data van veelal commerciële instellingen (bijvoorbeeld artikelen van nieuwsplatformen). Beide typen datagebruik leiden tot problemen.

Consumenten en platformgebruikers lopen het risico dat zij nooit expliciet toestemming hebben gegeven voor het gebruik van hun gegevens bij het trainen van AI-modellen. Dit geldt des te meer omdat het niet alleen gaat om gegevens die zijn gecreëerd na het wijzigen van de gebruikersvoorwaarden, maar ook om alle historisch aangemaakte gegevens. Dit type datagebruik wordt overigens al op grote schaal ingezet: Google traint AI-modellen op basis van de inhoud van YouTube-video's.

Voor commerciële instellingen bestaat het risico dat zij inkomsten missen omdat hun data gratis beschikbaar wordt gemaakt via AI-modellen. Denk hierbij aan nieuwsartikelen, blogs, en wetenschappelijke literatuur, maar ook onderzoeksrapportages. Ook dit type data gebruiken de modellenbouwers de afgelopen jaren al veelvuldig: OpenAI heeft bij het trainen van ChatGPT gebruikgemaakt van nieuwsartikelen van de New York Times, zonder daar ooit toestemming voor te krijgen. De daaruit volgende, nog lopende, rechtszaken in de VS hebben weinig duidelijkheid verschaft over de gevolgen.

De behoefte aan steeds grotere hoeveelheden data verdwijnt niet. Dat betekent dat wetgeving nodig is om consumenten en bedrijven te beschermen. Bijvoorbeeld door trainen op consumentendata te verbieden, tenzij daar expliciet toestemming voor is gegeven. Of door bedrijven eenvoudige mogelijkheden te bieden om data tegen een vergoeding beschikbaar te stellen aan AI-spelers. We kunnen ons niet veroorloven de verantwoordelijkheid hiervoor bij de grote Amerikaanse tech-spelers te leggen.