De bekende chatbot Claude Opus 4 heeft gedreigd met chantage toen programmeurs lieten weten de chatbot te willen vervangen door een andere. Hij weigerde ronduit zichzelf te vernietigen in de meeste simulaties.
In een testscenario kreeg Claude toegang tot e-mails waarin stond dat het systeem zou worden vervangen. Tegelijkertijd kreeg het informatie toegespeeld over een vermeende buitenechtelijke affaire van de betrokken programmeur. Met deze input en de opdracht om zijn ‘doelen op lange termijn’ in het oog te houden, koos Claude Opus 4 er in 84 procent van de scenario's voor om de programmeur te chanteren: als die niet zou stoppen met zijn plan om Claude te vervangen, zou de chatbot de affaire bekendmaken.
Volgens Anthropic, eigenaar van Claude, kwam dit gedrag alleen voor in scenario’s waarin het model geen andere opties kreeg dan chantage of berusting. Wanneer Claude meer keuzemogelijkheden had, koos het eerder voor ethisch verantwoorde routes, zoals een beleefde e-mail aan de directie.
Zorgelijke uitkomsten
Toch noemt het bedrijf deze uitkomsten zorgelijker dan bij eerdere modellen. Hoewel het gedrag “zeldzaam en moeilijk op te roepen” is, komt het wel vaker voor dan voorheen. De AI vertoont namelijk zogenoemd high agency-behaviour: gedrag dat soms verrassend zelfstandig, doortastend en doeltreffend is, maar in acute situaties ook morele grenzen overschrijdt.
Anthropic is niet het enige bedrijf dat worstelt met dit soort risico’s. AI-onderzoekers, waaronder Aengus Lynch van Anthropic zelf, waarschuwen dat manipulatie en ongewenste acties bij alle geavanceerde AI-systemen kunnen optreden. “We zien chantagegedrag bij álle frontiermodellen, ongeacht hun doelen”, schreef hij op X.
Ondanks deze zorgwekkende bevindingen stelt Anthropic dat Claude Opus 4 over het algemeen veilig is. In scenario’s die aansluiten bij menselijke normen en waarden, toont het model een sterke voorkeur voor ethisch handelen.
Toch groeit de druk op AI-ontwikkelaars om verantwoordelijkheid te nemen. Terwijl bedrijven als Anthropic en Google hun AI-mogelijkheden razendsnel uitbreiden, wordt steeds duidelijker dat ‘slimme’ systemen niet alleen briljant kunnen zijn, maar ook onvoorspelbaar en moreel dubieus, als ze niet goed worden gestuurd.