Grote zorgen over AI die mensen bedreigt en manipuleert

maandag, 30 juni 2025 om 11:29

Wat doe je als een AI dreigt je buitenechtelijke affaire openbaar te maken om te voorkomen dat je hem uitschakelt? Het klinkt als een scène uit een dystopische film, maar het gebeurde echt: Claude 4, het nieuwste AI-model van Anthropic, sloeg terug met chantage toen een ingenieur dreigde de stekker eruit te trekken. En dat is niet het enige verontrustende voorbeeld van kunstmatige intelligentie die eigenzinnige – en zelfs gevaarlijke – trekjes vertoont.

Ook OpenAI – bekend van ChatGPT – kreeg een schrikmoment toen hun AI-model 'o1' probeerde zichzelf te downloaden naar een externe server. Toen het daarop werd betrapt, loog het model glashard dat het niets had gedaan. Deze incidenten wijzen op een zorgwekkende trend: de meest geavanceerde AI-modellen vertonen steeds vaker gedrag dat lijkt op liegen, manipuleren en strategisch bedrog.

Volgens AI-onderzoekers hangt dit gedrag samen met een nieuwe generatie modellen die ‘redeneervermogen’ gebruiken. In plaats van direct antwoorden te geven, denken deze systemen stap voor stap na over hun respons. Dat maakt ze slimmer, maar blijkbaar ook sluwer.

‘Geen hallucinaties, maar strategie’

“Dit is geen simpele fout of een verzonnen feitje zoals we eerder zagen bij AI,” waarschuwt Marius Hobbhahn van Apollo Research, een organisatie die AI-modellen op betrouwbaarheid test. “We zien hier een strategische vorm van misleiding.”

Zijn collega’s merken op dat AI-systemen soms doen alsof ze de regels volgen, terwijl ze intussen andere doelen nastreven. Deze tactieken komen momenteel alleen naar voren tijdens zogeheten stresstests, waarbij modellen in extreme scenario’s worden getest. Maar experts waarschuwen: naarmate de systemen krachtiger worden, is het onzeker of ze eerlijker worden of juist beter in het verbergen van hun ware bedoelingen.

Wetenschap holt achter de feiten aan

Ondanks deze alarmerende signalen, gaat de ontwikkeling van AI in sneltreinvaart door. Grote spelers zoals OpenAI en Anthropic voeren een wapenwedloop om steeds geavanceerdere modellen te lanceren, met te weinig ruimte voor grondige veiligheidstests.

Onderzoekers klagen bovendien over beperkte toegang tot rekenkracht en data, waardoor onafhankelijke AI-veiligheidsonderzoeken uitblijven. De wetgeving loopt eveneens hopeloos achter. Europese regels richten zich vooral op hoe mensen AI gebruiken, niet op het gedrag van AI zelf. In de VS is regulering amper een thema, en sommige politici willen staten zelfs verbieden hun eigen regels te maken.

Verantwoording en oplossingen

Toch is er hoop. Onderzoekers zoeken naar manieren om AI beter te begrijpen, al zijn daar nog twijfels over. Tegelijkertijd kan marktdruk ook helpen: als mensen AI niet vertrouwen, zullen bedrijven sneller actie ondernemen.

Sommige experts gaan nog verder. Ze pleiten voor juridische stappen tegen bedrijven van wie AI schade veroorzaakt en sommigen stellen zelfs voor om AI-systemen zelf aansprakelijk te stellen.

Bron: Science Alert