Herken jij door AI gemaakte gezichten?

De data raakt op. Help! En data dat is de brandstof voor AI modellen. Online data, dus jouw artikelen en posts op internet. De berichten van experts en deskundigen die gewaardeerd worden en veel bezocht wordt, raakt op.

Verdwijnt dat dan of zoiets? Is er een Bermuda-driehoek of een zwart gat op internet gevonden? Is de Google zoekmachine stuk?

Voor het trainen van AI modellen als ChatGPT, Gemini en Claude wordt digitale data gebruikt.

En dan geldt: hoe meer data, hoe beter A.I. modellen werken. AI-modellen worden nauwkeuriger en menselijker worden met meer gegevens.

Hoe meer boeken, essays en andere informatie er wordt gelezen door mensen, hoe meer we weten, hoe meer we begrijpen en hoe beter we verbanden kunnen leggen. Dat geldt ook zo voor grote taalmodellen, de AI-systemen die de basis vormen van chatbots. Ze worden nauwkeuriger en krachtiger als ze meer gegevens krijgen.

Sommige grote taalmodellen, zoals OpenAI's GPT-3 werden getraind op honderden miljarden ‘tokens’. Tokens zijn hele woorden of stukjes woorden. De meest nieuw AI modellen werden getraind op meer dan drie biljoen tokens.

Chat GPT-3 werd getraind op miljarden voornamelijk Engelstalige websites, boeken en Wikipedia-artikelen verzameld van het internet. Maar openbaar beschikbare online data om A.I.-modellen te ontwikkelen, wordt sneller opgebruikt dan nieuwe data wordt geproduceerd.

Digitale data van hoge kwaliteit zal in 2026 op zijn. ‘Van hoge kwaliteit’ betekent professionals en deskundigen hebben teksten geschreven, die andere deskundigen gecontroleerd hebben, citeren en hergebruiken om hun zienswijze te geven. Die data wordt dus doorgegeven aan elkaar.

Techbedrijven doen er alles aan om meer en nieuwe data te verkrijgen. De makers van ChatGPT (OpenAI) , Google (Gemini) en Meta (FaceBook) zoeken nieuwe manieren om data te verzamelen.

Ze veranderen hun gebruikersvoorwaarden zodat ze de data in de gratis versies bijvoorbeeld kunnen gebruiken.

Als er niet genoeg diamanten zijn, dan maak je er zelf eentje in een laboratorium. Dat heet dan een 'synthetische diamant'. Kun je er toch geld mee verdienen.

Bij data kunnen we ook overschakelen op 'synthetische' data. Data gemaakt door een AI model en daarmee andere AI’s gaan trainen. Synthetische data is riskant omdat A.I.-modellen fouten kunnen maken. Dat heet dan geen liegen maar hallucineren. Alleen jij en ik weet dan dat de informatie niet klopt, maar hoe kan de AI dat doen? Anders blijft die foute data overal in doorwerken.

Wordt vervolgd.

Je hebt de test gedaan. Jij bent in staat foto's van echte mensen te onderscheiden van door A.I. gemaakte foto's. Mooi!

A.I.-systemen waren al jaren in staat om fotorealistische gezichten te produceren. Vaak zag dat er niet uit. Je kon duidelijk zien dat dat de afbeeldingen niet echt waren. A.I.-systemen konden geen bij elkaar horende oren maken of ogen die in dezelfde richting keken. 

Die tijd is wel een beetje anders geworden. A.I.-systemen zijn verder ontwikkeld en beter geworden in het creëren van gezichten.

Alle bovenstaande gezichten zijn nep. Gemaakt door A.I. Let maar eens op de oorbellen (verschillend en niet op de juiste hoogte), de oren die niet op de goede hoogte zitten, de hand van de dame of het monster dat de baby vast houdt,

En toch als ik aan jou vraag om te beoordelen of mensen op foto's echt zijn of door A.I. zijn gemaakt, dan zoek je dingen als een misvormd oor of een neus die niet de juste proportie heeft.

De afbeeldingen die je hier ziet en die in de test zijn gebruikt komen van StyleGAN2 en de resultaten kun je zien op thispersondoesnotexist.com. Dit is een A.I.model getraind met een openbare voorraad van foto's met 69 procent witte gezichten.
Andere testdeelnemers zeiden dat ze op een paar kenmerken vertrouwden om te beslissen of ze een echt mens of een A.I. mens zagen. Hoe proportioneel de gezichten zijn, het uiterlijk van de huid, rimpels, en gezichtskenmerken zoals ogen, brillenpootjes, oorbellen etc.

De hyperrealistische gezichten die in deze test werden gebruikt, waren minder onderscheidend. Omdat ze zo sterk gemiddelde proporties hebben, dat ze geen argwaan wekten bij de testdeelnemers. Iemand met in het echt werkelijk grote oren of een grote neus, werd door de menselijke testdeelnemers afgeserveerd en bestempeld als gemaakt door A.I.


>