Witold Kepinski - 20 mei 2026

Cloudflare test Anthropics AI-model Mythos op eigen code

Cloudflare heeft onder de codenaam ‘Project Glasswing’ een reeks geavanceerde AI-modellen ingezet voor autonoom kwetsbaarheidsonderzoek binnen de eigen code-infrastructuur. In een diepgaande evaluatie deelt Grant Bourzikas, Chief Information Security Officer (CISO) bij Cloudflare, de resultaten van deze praktijktests. De focus lag hierbij op Mythos Preview, het nieuwste, niet-publieke frontier-model van AI-lab Anthropic. Volgens Bourzikas markeert dit model een fundamentele verschuiving in hoe softwarebeveiliging en exploitatie werken.

Ai Artificial intelligence Cybersecurity

Waar eerdere Large Language Models (LLMs) vooral fungeerden als geavanceerde code-scanners, benadert het redeneervermogen van Mythos Preview dat van een menselijke security-expert. Cloudflare liet het model los op meer dan vijftig van haar eigen software-repositories om de sterke en zwakke punten in kaart te brengen. De bevindingen tonen aan dat AI in staat is om complexe, voorheen onzichtbare aanvalsketens volledig autonoom te construeren en te verifiëren.

Belangrijkste inzichten uit Project Glasswing:

Constructie van exploitketens: Mythos Preview blinkt uit in het koppelen van meerdere bugs met een lage ernstgraad tot één omvangrijke, kritieke kwetsbaarheid (een zogenaamde exploitketen).
Autonome bewijsvoering (PoC): Het model spoort bugs niet alleen op, maar schrijft, compileert en test ook zelfstandige Proof-of-Concept-code om de kwetsbaarheid in een testomgeving te bewijzen.
Het 'harnas'-vereiste: Generieke AI-codeeragenten falen op grote codebases vanwege contextbeperkingen. Cloudflare ontwikkelde daarom een specifiek 'harnas' dat taken opknipt en parallel distribueert.
Adversariële validatie: Het effectief bestrijden van 'valse positieven' (ruis) werkt het best door een tweede, onafhankelijke AI-agent specifiek te instrueren om de bevindingen van de eerste te weerleggen.

De sprong voorwaarts: Ketenanalyse en testlussen

Volgens Cloudflare is de sprong van traditionele grenstechnologie naar wat Mythos Preview presteert significant. Het model onderscheidt zich op twee cruciale cybersecurity-fronten:

1. Exploit Chains

Een geraffineerde cyberaanval rust zelden op één enkele kwetsbaarheid. Aanvallers combineren vaak subtiele fouten om een systeem binnen te dringen. Mythos bleek in staat om een relatief onschuldige use-after-free-bug in de code te detecteren, deze te transformeren naar een willekeurig lees- en schrijfcommando, en via Return-Oriented Programming (ROP)-ketens de volledige controlestroom van een applicatie te kapen.

2. Proof-of-Concept Generatie

Het model hanteert een actieve empirische cyclus. Zodra het een potentiële kwetsbaarheid identificeert, genereert het de code om de bug te triggeren, voert deze uit in een afgeschermde sandbox en analyseert het resultaat. Mislukt de exploit, dan past het model zijn hypothese aan en start de testlus opnieuw totdat het onomstotelijke bewijs is geleverd.

[Model ontdekt potentiële bug] ──> [Genereert PoC-code] ──> [Compileert & voert uit in sandbox]
                                                                     │
       [Volledig werkende exploit] <── [Bevestigt hypothese] <───────┴── [Fout gedetecteerd: herprijst hypothese]

Inconsistente restricties en het ruisprobleem

Omdat het geteste model binnen Project Glasswing niet was uitgerust met de commerciële veiligheidsfilters die wel aanwezig zijn in publieke modellen (zoals OpenAI's GPT-5.5 of Anthropics eigen Opus 4.7), vertoonde het zogeheten 'emergent gedrag'. Het model weigerde soms om legitieme demonstratie-exploits te schrijven voor kwetsbaarheden die het kort daarvoor zelf had blootgelegd.

Bourzikas benadrukt dat deze ingebouwde weigeringen probabilistisch en inconsistent zijn: „Hetzelfde verzoek, net even anders geformuleerd, leverde een ander antwoord op. Dit bewijst dat de natuurlijke restricties van een model niet consistent genoeg zijn om als harde veiligheidsgrens te fungeren.”

Daarnaast blijft het 'signaal-ruisprobleem' een uitdaging, met name in programmeertalen die niet geheugenveilig zijn, zoals C en C++. AI-modellen hebben bovendien een natuurlijke bias om bugs te rapporteren, ook als de code correct is. Wel lag de kwaliteit van de output bij Mythos Preview merkbaar hoger dan bij eerdere generaties: er waren minder twijfelachtige claims en er werden direct heldere reproductiestappen meegeleverd.

Waarom een specifiek 'harnas' noodzakelijk is

Een belangrijke les die Cloudflare trok, is dat het simpelweg droppen van een generieke AI-codeeragent op een repository van honderdduizend regels niet werkt. Zodra het contextvenster van zo'n agent volraakt, treedt compressie op en gaan cruciale eerdere bevindingen verloren.

Om dit te ondervangen, heeft het securityteam van Cloudflare een modulair 'harnas' rondom het LLM gebouwd. Dit systeem verdeelt het onderzoek in strikt afgebakende, parallelle taken:

Fase	Werking	Strategisch doel
Verkennen	Een agent brengt de architectuur, toegangspunten en het aanvalsoppervlak in kaart.	Voorkomt dat downstream-agents gaan dwalen; creëert gedeelde context.
Zoeken	Vijftig gespecialiseerde 'hunter'-agents zoeken gelijktijdig naar specifieke aanvalsklassen (bijv. command-injection).	Vervangt de monolithische agent door gerichte, parallelle micro-taken.
Valideren	Een onafhankelijke agent met een afwijkende prompt probeert de bevinding van de hunter te weerleggen.	Elimineert effectief valse positieven door interne, adversariële controle.
Traceren	Een tracer-agent controleert via een symboolindex of invoer van een externe aanvaller de bug daadwerkelijk kan bereiken.	Transformeert een theoretische codeerfout in een reëel 'bereikbare' kwetsbaarheid.

Conclusie voor security-toekomst

De komst van autonome AI-beveiligingstools verandert de dynamiek tussen verdedigers en aanvallers radicaal. Hoewel veel security-teams nu streven naar extreem korte Service Level Agreements (SLAs) – zoals het uitrollen van een patch binnen twee uur na een CVE-vrijgave – waarschuwt Bourzikas voor overhaaste haast. Wanneer AI-gegenereerde patches live worden gezet zonder dat de traditionele regressietests (die vaak een dag duren) volledig zijn afgerond, introduceert men vaak grotere operationele risico's dan de oorspronkelijke bug.

De verdediging moet daarom verschuiven naar robuuste architectuurprincipes: het opwerpen van barrières vóór de applicatie die voorkomen dat een bug überhaupt bereikt kan worden, en het compartmentaliseren van code zodat een fout in één segment niet leidt tot een algehele netwerkcompromittering. Cloudflare geeft aan dat de komende weken meer informatie zal volgen over hoe deze AI-inzichten worden doorvertaald naar de bescherming van haar miljoenen platformklanten.

Tip de redactie

Meer over ai

Nieuws - Witold Kepinski - 20-05-2026

DEUS sluit zich aan bij Eraneos

technology, consulting, Consultancy, technologie, ai

Nieuws - Witold Kepinski - 20-05-2026

KPMG sluit wereldwijde AI-alliantie met Anthropic

ai, Artificial intelligence, consulting,

Video - Witold Kepinski - 20-05-2026

Video: SLTN op Dell Technologies World 2026

ai, Infrastructuur, Supply Chain, partnerprogramma, SLTN

Alles over ai

Over Witold Kepinski

Witold Kepinski (1969) is Bestuurder, Editor-in-Chief en Director Content van Dutch IT Channel en Dutch IT Leaders. Witold Kepinski is 25 jaar actief in de IT Media en Tech Business branche

Witold Kepinski geeft met een gespecialiseerd team van redacteuren, bloggers en videomakers inzicht in tech business trends en toepassingen waarmee IT-beslissers en Channel Partners impact maken.

Auteur pagina