Cloudflare test Anthropics AI-model Mythos op eigen code
Cloudflare heeft onder de codenaam ‘Project Glasswing’ een reeks geavanceerde AI-modellen ingezet voor autonoom kwetsbaarheidsonderzoek binnen de eigen code-infrastructuur. In een diepgaande evaluatie deelt Grant Bourzikas, Chief Information Security Officer (CISO) bij Cloudflare, de resultaten van deze praktijktests. De focus lag hierbij op Mythos Preview, het nieuwste, niet-publieke frontier-model van AI-lab Anthropic. Volgens Bourzikas markeert dit model een fundamentele verschuiving in hoe softwarebeveiliging en exploitatie werken.
Waar eerdere Large Language Models (LLMs) vooral fungeerden als geavanceerde code-scanners, benadert het redeneervermogen van Mythos Preview dat van een menselijke security-expert. Cloudflare liet het model los op meer dan vijftig van haar eigen software-repositories om de sterke en zwakke punten in kaart te brengen. De bevindingen tonen aan dat AI in staat is om complexe, voorheen onzichtbare aanvalsketens volledig autonoom te construeren en te verifiëren.
Belangrijkste inzichten uit Project Glasswing:
Constructie van exploitketens: Mythos Preview blinkt uit in het koppelen van meerdere bugs met een lage ernstgraad tot één omvangrijke, kritieke kwetsbaarheid (een zogenaamde exploitketen).
Autonome bewijsvoering (PoC): Het model spoort bugs niet alleen op, maar schrijft, compileert en test ook zelfstandige Proof-of-Concept-code om de kwetsbaarheid in een testomgeving te bewijzen.
Het 'harnas'-vereiste: Generieke AI-codeeragenten falen op grote codebases vanwege contextbeperkingen. Cloudflare ontwikkelde daarom een specifiek 'harnas' dat taken opknipt en parallel distribueert.
Adversariële validatie: Het effectief bestrijden van 'valse positieven' (ruis) werkt het best door een tweede, onafhankelijke AI-agent specifiek te instrueren om de bevindingen van de eerste te weerleggen.
De sprong voorwaarts: Ketenanalyse en testlussen
Volgens Cloudflare is de sprong van traditionele grenstechnologie naar wat Mythos Preview presteert significant. Het model onderscheidt zich op twee cruciale cybersecurity-fronten:
1. Exploit Chains
Een geraffineerde cyberaanval rust zelden op één enkele kwetsbaarheid. Aanvallers combineren vaak subtiele fouten om een systeem binnen te dringen. Mythos bleek in staat om een relatief onschuldige use-after-free-bug in de code te detecteren, deze te transformeren naar een willekeurig lees- en schrijfcommando, en via Return-Oriented Programming (ROP)-ketens de volledige controlestroom van een applicatie te kapen.
2. Proof-of-Concept Generatie
Het model hanteert een actieve empirische cyclus. Zodra het een potentiële kwetsbaarheid identificeert, genereert het de code om de bug te triggeren, voert deze uit in een afgeschermde sandbox en analyseert het resultaat. Mislukt de exploit, dan past het model zijn hypothese aan en start de testlus opnieuw totdat het onomstotelijke bewijs is geleverd.
[Model ontdekt potentiële bug] ──> [Genereert PoC-code] ──> [Compileert & voert uit in sandbox]
│
[Volledig werkende exploit] <── [Bevestigt hypothese] <───────┴── [Fout gedetecteerd: herprijst hypothese]
Inconsistente restricties en het ruisprobleem
Omdat het geteste model binnen Project Glasswing niet was uitgerust met de commerciële veiligheidsfilters die wel aanwezig zijn in publieke modellen (zoals OpenAI's GPT-5.5 of Anthropics eigen Opus 4.7), vertoonde het zogeheten 'emergent gedrag'. Het model weigerde soms om legitieme demonstratie-exploits te schrijven voor kwetsbaarheden die het kort daarvoor zelf had blootgelegd.
Bourzikas benadrukt dat deze ingebouwde weigeringen probabilistisch en inconsistent zijn: „Hetzelfde verzoek, net even anders geformuleerd, leverde een ander antwoord op. Dit bewijst dat de natuurlijke restricties van een model niet consistent genoeg zijn om als harde veiligheidsgrens te fungeren.”
Daarnaast blijft het 'signaal-ruisprobleem' een uitdaging, met name in programmeertalen die niet geheugenveilig zijn, zoals C en C++. AI-modellen hebben bovendien een natuurlijke bias om bugs te rapporteren, ook als de code correct is. Wel lag de kwaliteit van de output bij Mythos Preview merkbaar hoger dan bij eerdere generaties: er waren minder twijfelachtige claims en er werden direct heldere reproductiestappen meegeleverd.
Waarom een specifiek 'harnas' noodzakelijk is
Een belangrijke les die Cloudflare trok, is dat het simpelweg droppen van een generieke AI-codeeragent op een repository van honderdduizend regels niet werkt. Zodra het contextvenster van zo'n agent volraakt, treedt compressie op en gaan cruciale eerdere bevindingen verloren.
Om dit te ondervangen, heeft het securityteam van Cloudflare een modulair 'harnas' rondom het LLM gebouwd. Dit systeem verdeelt het onderzoek in strikt afgebakende, parallelle taken:
Fase | Werking | Strategisch doel |
Verkennen | Een agent brengt de architectuur, toegangspunten en het aanvalsoppervlak in kaart. | Voorkomt dat downstream-agents gaan dwalen; creëert gedeelde context. |
Zoeken | Vijftig gespecialiseerde 'hunter'-agents zoeken gelijktijdig naar specifieke aanvalsklassen (bijv. command-injection). | Vervangt de monolithische agent door gerichte, parallelle micro-taken. |
Valideren | Een onafhankelijke agent met een afwijkende prompt probeert de bevinding van de hunter te weerleggen. | Elimineert effectief valse positieven door interne, adversariële controle. |
Traceren | Een tracer-agent controleert via een symboolindex of invoer van een externe aanvaller de bug daadwerkelijk kan bereiken. | Transformeert een theoretische codeerfout in een reëel 'bereikbare' kwetsbaarheid. |
Conclusie voor security-toekomst
De komst van autonome AI-beveiligingstools verandert de dynamiek tussen verdedigers en aanvallers radicaal. Hoewel veel security-teams nu streven naar extreem korte Service Level Agreements (SLAs) – zoals het uitrollen van een patch binnen twee uur na een CVE-vrijgave – waarschuwt Bourzikas voor overhaaste haast. Wanneer AI-gegenereerde patches live worden gezet zonder dat de traditionele regressietests (die vaak een dag duren) volledig zijn afgerond, introduceert men vaak grotere operationele risico's dan de oorspronkelijke bug.
De verdediging moet daarom verschuiven naar robuuste architectuurprincipes: het opwerpen van barrières vóór de applicatie die voorkomen dat een bug überhaupt bereikt kan worden, en het compartmentaliseren van code zodat een fout in één segment niet leidt tot een algehele netwerkcompromittering. Cloudflare geeft aan dat de komende weken meer informatie zal volgen over hoe deze AI-inzichten worden doorvertaald naar de bescherming van haar miljoenen platformklanten.