Witold Kepinski - 11 februari 2026

Claude-agenten schrijven 100.000 regels code zonder mens

In een baanbrekend experiment heeft Nicholas Carlini, onderzoeker bij Anthropic, aangetoond dat de toekomst van softwareontwikkeling mogelijk niet langer draait om individuele programmeurs, maar om autonome 'agent teams'. Met behulp van 16 parallel draaiende instanties van Claude Opus 4.6 slaagde hij erin om vanuit het niets een volledig functionele C-compiler te bouwen, capabel genoeg om de Linux-kernel te compileren.

Claude-agenten schrijven 100.000 regels code zonder mens image

Het project, dat in februari 2026 werd gepubliceerd, markeert een kantelpunt in de autonomie van kunstmatige intelligentie. Waar huidige AI-tools meestal wachten op menselijke instructies na elke stap, draaide dit team van agenten in een continue lus, met minimale menselijke tussenkomst.

De opzet: 2.000 sessies en 20.000 dollar

Carlini ontwikkelde een speciale 'harnas'-omgeving waarin 16 Claude-agenten tegelijkertijd aan dezelfde codebase werkten. Elke agent werd in een eigen Docker-container geplaatst en communiceerde via een centraal Git-systeem. Om te voorkomen dat agenten aan hetzelfde probleem werkten, gebruikten ze een eenvoudig vergrendelingssysteem: wie een taak claimde, plaatste een digitaal 'slot' op dat bestand.

De resultaten zijn indrukwekkend:

Omvang: Een compiler van 100.000 regels code, geschreven in Rust.

Prestaties: De compiler kan Linux 6.9 bouwen voor x86-, ARM- en RISC-V-architecturen.

Complexiteit: Het systeem slaagt voor de 'litmustest' voor programmeurs: het kan het spel Doom compileren en draaien.

Kosten: Het project kostte ongeveer $20.000 aan API-fees en verbruikte 2 miljard tokens.

Lessen in autonomie

Volgens Carlini was de grootste uitdaging niet de intelligentie van de modellen zelf, maar het ontwerpen van de omgeving waarin zij werkten. Om de agenten op het juiste spoor te houden zonder menselijk toezicht, waren drie zaken essentieel:

  1. Hoogwaardige tests: Omdat de AI autonoom werkt, lost hij elk probleem op dat hij voorgeschoteld krijgt. Als de tests niet perfect zijn, lost de AI simpelweg het verkeerde probleem op.
  2. Specialisatie: Parallelle agenten maken specialisatie mogelijk. Terwijl de meeste agenten functies schreven, werd één agent specifiek belast met het opschonen van dubbele code, terwijl een ander toezag op de algehele codekwaliteit.
  3. Parallelle debugging: Voor complexe taken zoals de Linux-kernel, waarbij elke agent op dezelfde bug stuitte, moest een 'oracle' (een bekende goede compiler zoals GCC) worden ingezet om de AI-agenten te helpen identificeren waar hun code precies afweek van de standaard.

De limieten van de machine

Ondanks het succes liep het team tegen de grenzen van de huidige AI-capaciteiten aan. De gegenereerde code is minder efficiënt dan die van traditionele compilers zoals GCC. Ook bleek de AI moeite te hebben met zeer specifieke hardware-beperkingen, zoals de 16-bits 'real mode' die nodig is om x86-systemen op te starten. In dat specifieke geval moest de AI "valsspelen" door hulp in te roepen van een bestaande compiler.

Bovendien bleek de wet van de remmende voorsprong te gelden: naarmate het project complexer werd, zorgden nieuwe bugfixes er regelmatig voor dat functies die eerder werkten weer kapotgingen.

Een ongemakkelijke toekomst?

Hoewel Carlini het experiment als "enorm leuk" omschrijft, uit hij ook zijn zorgen. De snelheid waarmee autonome teams nu al complexe software kunnen produceren, roept vragen op over veiligheid en verificatie. "De gedachte dat programmeurs software uitrollen die ze nooit persoonlijk hebben gecontroleerd, is een reëel punt van zorg," aldus de onderzoeker.

Infinity 01-2026 BW + BN Datto 01 2026 BW + BN periode 1
Infinity 01-2026 BW + BN