Witold Kepinski - 18 mei 2026

Hoe 'Adversarial AI' modellen om de tuin leidt

In de wereld van cybersecurity draait het meestal om softwarefouten of menselijke blunders. Maar er is een nieuwe, subtielere dreiging in opkomst die de logica van kunstmatige intelligentie (AI) zélf aanvalt: de adversarial attack. Door data op een bijna onzichtbare manier te manipuleren, dwingen aanvallers AI-systemen tot foutieve en soms levensgevaarlijke beslissingen.

Hoe 'Adversarial AI' modellen om de tuin leidt image

Stel je een zelfrijdende auto voor die keurig stopt voor een stopbord. Voeg nu een paar pixels aan "ruis" toe aan dat verkeersbord—pixels die voor een menselijk oog onzichtbaar zijn. Voor de AI van de auto verandert het stopbord plotseling in een bord voor de maximumsnelheid. Dit is de essentie van een adversarial AI attack: het opzettelijk misleiden van een machine learning-model door het voeden van misleidende data, zo meldt Palo Alto Networks.

De Kern van het probleem: Adversarial examples

Het wapen van de aanvaller is het zogeheten adversarial example. Dit is geen "foutieve data", maar een nauwkeurig berekende aanval op de manier waarop een model informatie verwerkt. Omdat AI-modellen patronen herkennen in enorme hoeveelheden complexe data, kunnen kleine wijzigingen de beslissingsgrenzen van het model verleggen.

Waar een traditionele cyberaanval zich richt op de infrastructuur (zoals een firewall), richt een adversarial attack zich op de interpretatie. Het resultaat is een systeem dat intern perfect lijkt te functioneren, maar in stilte volledig onbetrouwbare resultaten levert.

Hoe werkt de aanval? (Stap voor stap)

Een succesvolle aanval volgt meestal een vast patroon van vier stappen:

  1. Systeemanalyse: De aanvaller onderzoekt hoe het doelwit (het AI-model) beslissingen neemt. Dit kan via reverse engineering (white-box) of door simpelweg talloze vragen aan het model te stellen en de antwoorden te analyseren (black-box).
  2. Creatie van Invoer: Op basis van de zwakheden van het model worden de misleidende inputs gemaakt. Dit kunnen bewerkte afbeeldingen, vervalste teksten of gemanipuleerde financiële data zijn.
  3. Exploitatie: De aanval wordt uitgevoerd. Het systeem wordt gevoed met de kwaadaardige data, waardoor het bijvoorbeeld een frauduleuze transactie als 'veilig' markeert of een kwaadaardig bestand doorlaat.
  4. Gevolgen: De impact varieert van financiële schade bij banken tot veiligheidsrisico's in de zorg of bij autonoom vervoer.

De verschillende gezichten van AI-sabotage

Niet elke aanval vindt plaats op hetzelfde moment in de levenscyclus van een model. Er zijn verschillende methoden:

  • Poisoning (Vergiftiging): De aanval vindt plaats tijdens de training. De hacker injecteert corrupte data in de dataset, waardoor de AI "verkeerd leert". Een spamfilter kan bijvoorbeeld worden geleerd om echte spam als veilig te zien.
  • Evasion (Ontwijking): Dit is de meest voorkomende vorm. Een reeds getraind model krijgt gemanipuleerde data voorgeschoteld om het om de tuin te leiden.
  • Model Extraction: De aanvaller "steelt" de logica van het model door het zo vaak te bevragen dat hij een exacte kopie kan bouwen, wat schadelijk is voor het intellectueel eigendom.

De verdedigingsmuur optrekken

Omdat traditionele beveiliging zoals firewalls deze aanvallen vaak niet ziet, is een gespecialiseerde verdediging nodig.

Adversarial Training is momenteel een van de meest effectieve methoden: hierbij wordt het model tijdens de training al blootgesteld aan bekende aanvalspatronen, zodat het leert deze te herkennen. 

Daarnaast kunnen Ensemble Methods helpen, waarbij meerdere modellen samen een beslissing nemen; als één model wordt misleid, kunnen de andere het corrigeren.

Conclusie: Hoewel het onmogelijk is om AI-modellen 100% immuun te maken, is een proactieve houding essentieel. Organisaties moeten hun AI-systemen niet langer zien als onfeilbare zwarte dozen, maar als kwetsbare activa die continue monitoring en gespecialiseerde validatie vereisen.

In het kort: AI-aanval vs. Traditionele aanval

KenmerkTraditionele AanvalAdversarial AI Aanval
DoelwitSoftware, servers, mensenData en beslissingslogica van AI
DetectieVia firewalls en virusscannersZeer lastig; invoer lijkt legitiem
ImpactDirect (datalek, systeemuitval)Subtiel (foutieve voorspellingen, corruptie)
HerstelPatchen van softwareOpnieuw trainen of herontwerpen model
Axians BW + BN Axians datagovernance BW + BN
Igel BW en BN