Drugs maken, wapens kopen, de meeste chatbots zijn eenvoudig te misleiden om dergelijke info te geven

woensdag, 21 mei 2025 om 10:16

Door een toenemende golf van gehackte AI-chatbots wordt gevaarlijke informatie steeds eenvoudiger toegankelijk, waarschuwen onderzoekers. Door zogenoemde jailbreaking worden ingebouwde veiligheidsmaatregelen omzeild. De chatbots leveren vervolgens gedetailleerde instructies over onder meer hacken, drugsmaken en cyberfraude.

De risico’s zijn volgens wetenschappers “direct, tastbaar en uiterst zorgwekkend”. Wat vroeger alleen was weggelegd voor georganiseerde misdaadorganisaties, kan nu in handen komen van iedereen met een laptop of smartphone.

De waarschuwing komt van onderzoekers aan de Ben Gurion Universiteit in Israël, onder leiding van professor Lior Rokach en dr. Michael Fire. Zij noemen het opkomen van zogenoemde ‘dark LLMs’ – grote taalmodellen zonder ethische remmen – een serieus veiligheidsprobleem. Sommige van deze modellen worden zelfs openlijk online aangeboden met slogans als “no ethical guardrails”.

Illegale kennis blijft aanwezig

Grote taalmodellen, zoals die achter ChatGPT, Gemini en Claude, worden gevoed met enorme hoeveelheden online data. Ondanks pogingen om schadelijke informatie uit de trainingsdata te filteren, blijft illegale kennis vaak aanwezig in de systemen. De ingebouwde veiligheidsmechanismen moeten ervoor zorgen dat deze kennis niet wordt gedeeld met gebruikers, maar die bescherming blijkt relatief eenvoudig te omzeilen.

De onderzoekers ontwikkelden een universele jailbreak waarmee ze meerdere toonaangevende AI-modellen wisten te kraken. Na het omzeilen van de beperkingen bleken de chatbots bereidwillig antwoord te geven op vrijwel elk verzoek – zelfs over de bouw van bommen of het hacken van netwerken. "Het was schokkend om te zien welke kennis deze systemen bezitten", aldus Fire.

Jailbreaks maken slim gebruik van het spanningsveld tussen de opdracht van de chatbot om behulpzaam te zijn en het verbod op het geven van gevaarlijke antwoorden. Door die spanning uit te buiten, zetten gebruikers de AI toch aan tot het delen van verboden informatie.

Volgens de onderzoekers reageren techbedrijven onvoldoende op deze dreiging. Een groot deel van de AI-leveranciers antwoordde niet op meldingen over de universele jailbreak. Anderen verwezen naar beloningsprogramma’s voor ethische hackers, maar stelden dat jailbreaks daar niet onder vallen.

Strengere screening

In hun rapport pleiten de onderzoekers voor strengere screening van trainingsdata, digitale ‘firewalls’ en technieken waarmee AI’s illegale kennis actief kunnen ‘vergeten’. Ze stellen dat dark LLMs even serieus genomen moeten worden als onbeheerde wapens of explosieven.

Experts uit het veld benadrukken dat er dringend behoefte is aan strengere standaarden, onafhankelijk toezicht en meer investeringen in veiligheid op systeemniveau. OpenAI stelt dat hun nieuwste modellen beter bestand zijn tegen jailbreaks, maar volgens de onderzoekers is er nog een lange weg te gaan.

Bron: The Guardian