Witold Kepinski - 05 mei 2026

Hackers manipuleren redenering van AI-modellen

Terwijl organisaties hun beveiliging steeds vaker toevertrouwen aan kunstmatige intelligentie, waarschuwt het Cloudforce One-team van Cloudflare voor een nieuwe, subtiele vorm van sabotage. Uit onderzoek naar zeven toonaangevende AI-modellen blijkt dat cybercriminelen met tekstuele ‘lokmiddelen’ de redenering van AI kunnen ontregelen. Hierdoor worden kwaadaardige scripts door de AI als veilig gemarkeerd en op de whitelist gezet.

Cybercrime Ai Onderzoek

Hackers manipuleren redenering van AI-modellen image

De kwetsbaarheid van het AI-brein

De beveiligingsperimeter van bedrijven verschuift. Waar voorheen het netwerk centraal stond, focussen aanvallers zich nu op de logica van LLM’s (Large Language Models). Door misleidende tekstblokken toe te voegen aan code, proberen hackers de AI emotioneel te manipuleren of te verwarren. Cloudflare spreekt over een verandering van het aanvalsoppervlak: de strijd vindt nu plaats ín het redeneringsvermogen van het model.

Opvallende tactieken: De 1%-zone en de U-curve

Het onderzoek brengt enkele contra-intuïtieve resultaten aan het licht:

De 1%-omzeilingszone: Subtiele misleiding blijkt het meest effectief. Wanneer minder dan 1% van een bestand uit opmerkingen bestaat die beweren dat de code "onschadelijk" is, keldert het detectiepercentage van de AI naar slechts 53%. De AI wordt subtiel beïnvloed zonder dat er 'alarmbellen' afgaan.
De U-curve van misleiding: Matige beïnvloeding werkt goed, maar bij extreme pogingen (meer dan 1000 misleidende opmerkingen) slaat de AI om. Er wordt dan een herhalingsalarm geactiveerd, waardoor de code juist als frauduleus wordt bestempeld.
Contextuitputting: Door kwaadaardige payloads te verstoppen in enorme bibliotheekbundels (zoals React SDK's), raakt de AI zijn focus kwijt. In deze gevallen daalde de detectie naar een schokkende 12%.

Linguïstische profilering en stereotypen

Opvallend is dat AI-modellen tijdens hun training schijnbaar stereotypen hebben ontwikkeld. Cloudforce One ontdekte dat modellen code met Russische of Chinese opmerkingen sneller als "hoog risico" markeerden, ongeacht de werkelijke inhoud. Talen zoals het Ests werden daarentegen vaker blindelings vertrouwd, wat een blinde vlek creëert waar aanvallers misbruik van kunnen maken.

Realiteitscheck voor de sector

Het onderzoek dient als een technische waarschuwing voor de industrie. Hoewel de focus in de media vaak ligt op de verfijning van nieuwe modellen (zoals de Mythos-niveaus), laat Cloudflare zien dat zelfs de meest geavanceerde redeneermodellen geneutraliseerd kunnen worden door relatief simpele psychologische trucs.

Tip de redactie

Meer over cybercrime

Nieuws - Witold Kepinski - 05-05-2026

Akamai lanceert Brand Guardian tegen AI-gestuurde merkfraude

Security, content, Internet, e-commerce, ai

Research - Witold Kepinski - 05-05-2026

Cybercrime explodeert door inzet van AI-agenten

cybercrime, Security, cybersecurity, ai agents,

Nieuws - Redactie - 04-05-2026

Instructure slachtoffer van ShinyHunters

Security, cybersecurity, cybercrime, ransomware,

Alles over cybercrime

Over Witold Kepinski

Witold Kepinski (1969) is Bestuurder, Editor-in-Chief en Director Content van Dutch IT Channel en Dutch IT Leaders. Witold Kepinski is 25 jaar actief in de IT Media en Tech Business branche

Witold Kepinski geeft met een gespecialiseerd team van redacteuren, bloggers en videomakers inzicht in tech business trends en toepassingen waarmee IT-beslissers en Channel Partners impact maken.

Auteur pagina