Zie jij het verschil tussen foto’s van echte mensen en door AI gemaakte mensen?

De data raakt op. Help! En data dat is de brandstof voor AI modellen. Online data, dus jouw artikelen en posts op internet. De berichten van experts en deskundigen die gewaardeerd worden en veel bezocht wordt, raakt op.

Verdwijnt dat dan of zoiets? Is er een Bermuda-driehoek of een zwart gat op internet gevonden? Is de Google zoekmachine stuk?

Voor het trainen van AI modellen als ChatGPT, Gemini en Claude wordt digitale data gebruikt.

En dan geldt: hoe meer data, hoe beter A.I. modellen werken. AI-modellen worden nauwkeuriger en menselijker worden met meer gegevens.

Hoe meer boeken, essays en andere informatie er wordt gelezen door mensen, hoe meer we weten, hoe meer we begrijpen en hoe beter we verbanden kunnen leggen. Dat geldt ook zo voor grote taalmodellen, de AI-systemen die de basis vormen van chatbots. Ze worden nauwkeuriger en krachtiger als ze meer gegevens krijgen.

Sommige grote taalmodellen, zoals OpenAI's GPT-3 werden getraind op honderden miljarden ‘tokens’. Tokens zijn hele woorden of stukjes woorden. De meest nieuw AI modellen werden getraind op meer dan drie biljoen tokens.

Chat GPT-3 werd getraind op miljarden voornamelijk Engelstalige websites, boeken en Wikipedia-artikelen verzameld van het internet. Maar openbaar beschikbare online data om A.I.-modellen te ontwikkelen, wordt sneller opgebruikt dan nieuwe data wordt geproduceerd.

Digitale data van hoge kwaliteit zal in 2026 op zijn. ‘Van hoge kwaliteit’ betekent professionals en deskundigen hebben teksten geschreven, die andere deskundigen gecontroleerd hebben, citeren en hergebruiken om hun zienswijze te geven. Die data wordt dus doorgegeven aan elkaar.

Techbedrijven doen er alles aan om meer en nieuwe data te verkrijgen. De makers van ChatGPT (OpenAI) , Google (Gemini) en Meta (FaceBook) zoeken nieuwe manieren om data te verzamelen.

Ze veranderen hun gebruikersvoorwaarden zodat ze de data in de gratis versies bijvoorbeeld kunnen gebruiken.

Als er niet genoeg diamanten zijn, dan maak je er zelf eentje in een laboratorium. Dat heet dan een 'synthetische diamant'. Kun je er toch geld mee verdienen.

Bij data kunnen we ook overschakelen op 'synthetische' data. Data gemaakt door een AI model en daarmee andere AI’s gaan trainen. Synthetische data is riskant omdat A.I.-modellen fouten kunnen maken. Dat heet dan geen liegen maar hallucineren. Alleen jij en ik weet dan dat de informatie niet klopt, maar hoe kan de AI dat doen? Anders blijft die foute data overal in doorwerken.

Wordt vervolgd.

In deze test kun je snel zien of jij door A.I. gemaakte portretten van mensen en foto's van echte mensen kunt herkennen. Doe die test hier.

Vond je het moeilijk of makkelijk? Heb je gezocht naar bijvoorbeeld ogen met een levenloze blik? Of oren die op de verkeerde plaats zaten? 

Tjsa, het valt niet mee in deze tijd van A.I. 

Het onderscheiden tussen een echt gezicht en een door A.I. gegenereerd gezicht is bijzonder verwarrend gebleken. Omdat mensen zichzelf overschatten in het kunnen herkennen van echte en onechte (=door A.I. gemaakte) foto's.

Wetenschappelijk onderzoek uit verschillende studies laat zien dat gezichten van witte mensen die door A.I.-systemen zijn gecreëerd, als realistischer werden ervaren dan echte foto's van witte mensen, een fenomeen dat hyperrealisme wordt genoemd.

Onderzoekers geloven dat A.I.-hulpmiddelen uitblinken in het produceren van hyperrealistische gezichten omdat ze zijn getraind met tienduizenden afbeeldingen van echte mensen. Die trainingsdatasets bevatten op dit ogenblik voornamelijk afbeeldingen van witte mensen, resulterend in hyperrealistische witte gezichten.

De overmatige afhankelijkheid van afbeeldingen van witte mensen voor het trainen van A.I. is een bekend probleem in de tech-industrie. Dan krijg je dus dat als A.I. getraind moet worden om ook gekleurde en zwarte mensen te herkennen, er nog wel eens iets fout gaat. Zoals Gemini van Google die zwarte mensen afbeeldt in een Duits soldatenuniform uit 1943.

Onderzoek ontdekt dat de verwarring minder duidelijk was bij niet-witte gezichten. En hoe zekerder je gevoel is dat je het goed hebt, hoe groter de kans is dat je eigenlijk hartstikke fout zit.  

Onze denkstijl maakt ons kwetsbaarder op internet en kwetsbaarder voor desinformatie.

Dat door A.I. gegenereerde gezichten als authentieker konden worden beschouwd dan echte mensen wekte bij wetenschappers nogal wat verbazing op. Want dat betekent dat als ik en jij op ons gevoel af gaat, en dat uit onderzoek blijkt dat ons gevoel absoluut geen betrouwbare informatie geeft,  dat digitale vervalsingen de verspreiding van valse en misleidende berichten online kunnen helpen.

Enne.... de foto van de meneer hier boven aan in dit artikel? Dat is een echte persoon!
Test jezelf met 10 foto's.... dat doe je hier.


>