Hackers manipuleren redenering van AI-modellen
Terwijl organisaties hun beveiliging steeds vaker toevertrouwen aan kunstmatige intelligentie, waarschuwt het Cloudforce One-team van Cloudflare voor een nieuwe, subtiele vorm van sabotage. Uit onderzoek naar zeven toonaangevende AI-modellen blijkt dat cybercriminelen met tekstuele ‘lokmiddelen’ de redenering van AI kunnen ontregelen. Hierdoor worden kwaadaardige scripts door de AI als veilig gemarkeerd en op de whitelist gezet.
De kwetsbaarheid van het AI-brein
De beveiligingsperimeter van bedrijven verschuift. Waar voorheen het netwerk centraal stond, focussen aanvallers zich nu op de logica van LLM’s (Large Language Models). Door misleidende tekstblokken toe te voegen aan code, proberen hackers de AI emotioneel te manipuleren of te verwarren. Cloudflare spreekt over een verandering van het aanvalsoppervlak: de strijd vindt nu plaats ín het redeneringsvermogen van het model.
Opvallende tactieken: De 1%-zone en de U-curve
Het onderzoek brengt enkele contra-intuïtieve resultaten aan het licht:
- De 1%-omzeilingszone: Subtiele misleiding blijkt het meest effectief. Wanneer minder dan 1% van een bestand uit opmerkingen bestaat die beweren dat de code "onschadelijk" is, keldert het detectiepercentage van de AI naar slechts 53%. De AI wordt subtiel beïnvloed zonder dat er 'alarmbellen' afgaan.
- De U-curve van misleiding: Matige beïnvloeding werkt goed, maar bij extreme pogingen (meer dan 1000 misleidende opmerkingen) slaat de AI om. Er wordt dan een herhalingsalarm geactiveerd, waardoor de code juist als frauduleus wordt bestempeld.
- Contextuitputting: Door kwaadaardige payloads te verstoppen in enorme bibliotheekbundels (zoals React SDK's), raakt de AI zijn focus kwijt. In deze gevallen daalde de detectie naar een schokkende 12%.
Linguïstische profilering en stereotypen
Opvallend is dat AI-modellen tijdens hun training schijnbaar stereotypen hebben ontwikkeld. Cloudforce One ontdekte dat modellen code met Russische of Chinese opmerkingen sneller als "hoog risico" markeerden, ongeacht de werkelijke inhoud. Talen zoals het Ests werden daarentegen vaker blindelings vertrouwd, wat een blinde vlek creëert waar aanvallers misbruik van kunnen maken.
Realiteitscheck voor de sector
Het onderzoek dient als een technische waarschuwing voor de industrie. Hoewel de focus in de media vaak ligt op de verfijning van nieuwe modellen (zoals de Mythos-niveaus), laat Cloudflare zien dat zelfs de meest geavanceerde redeneermodellen geneutraliseerd kunnen worden door relatief simpele psychologische trucs.