DeepSeek luidt nieuw tijdperk in voor AI-architectuur met 'mHC'
De Chinese AI-gigant DeepSeek op de valreep van 2025 een baanbrekende wetenschappelijke paper gepubliceerd. Met de introductie van Manifold-Constrained Hyper-Connections (mHC) claimt het bedrijf een fundamentele oplossing te hebben gevonden voor de instabiliteit die gepaard gaat met het trainen van extreem grote AI-modellen.
De afgelopen tien jaar was de 'residual connection' de gouden standaard in AI-ontwerp; een methode die ervoor zorgt dat informatie ongehinderd door diepe neurale netwerken kan stromen. Recentelijk experimenteerden onderzoekers met Hyper-Connections (HC) om de prestaties te verbeteren, maar dit leidde vaak tot instabiele systemen die lastig op te schalen waren. DeepSeek lost dit nu op door deze verbindingen te beperken tot een specifieke wiskundige 'manifold' (variëteit), waardoor de stabiliteit van het netwerk gewaarborgd blijft zonder aan rekenkracht in te boeten.
Doorbraak in schaalbaarheid
Uit de paper blijkt dat de mHC-methode direct is toegepast op verschillende modelgroottes, variërend van 3 miljard tot maar liefst 27 miljard parameters. De resultaten zijn indrukwekkend: de modellen trainen niet alleen efficiënter, maar vertonen ook superieure prestaties in complexe taken.
Efficiëntie als kernpunt
Naast de wiskundige verbeteringen heeft DeepSeek de infrastructuur achter mHC geoptimaliseerd voor modern computergebruik. Dit betekent dat de nieuwe architectuur minder geheugen vereist en sneller data kan verwerken. Dit is cruciaal in een tijd waarin de kosten voor AI-training de pan uit rijzen en de vraag naar energiezuinige modellen toeneemt.
Met deze publicatie zet DeepSeek de toon voor 2026. Het signaleert een verschuiving in de AI-wedloop: het gaat niet langer alleen om wie het grootste model heeft, maar om wie de meest intelligente architectuur bezit om die schaal hanteerbaar en betaalbaar te maken.