Google introduceert geavanceerde private LLM VaultGemma
Google heeft VaultGemma onthuld, een baanbrekend taalmodel dat van de grond af aan is getraind met "differentiaal privacy" (DP). Dit model, met 1 miljard parameters, is volgens Google het meest capabele openbare taalmodel dat is gebouwd met ingebouwde privacygaranties. De introductie is een belangrijke stap in de ontwikkeling van AI-systemen die de privacy van gebruikers waarborgen.

Privacy in de kern
Differentiaal privacy is een wiskundige methode die ruis aan trainingsdata toevoegt om te voorkomen dat het model individuele gegevens onthoudt zo meldt Google. Hoewel dit essentieel is voor privacy, bracht het tot nu toe grote uitdagingen met zich mee. Het toevoegen van deze ruis maakt de training instabiel en vereist veel hogere rekenkracht en grotere datasets om dezelfde prestaties te bereiken als niet-private modellen.
In samenwerking met Google DeepMind heeft Google een uitgebreid onderzoek uitgevoerd naar deze dynamiek. Dit onderzoek, getiteld “Scaling Laws for Differentially Private Language Models”, bracht de complexe wisselwerking tussen rekenkracht, privacy en prestaties in kaart. De resultaten toonden aan dat, in tegenstelling tot traditionele methoden, een DP-model het best traint met een kleiner model en een veel grotere batchomvang.
Verantwoordelijk model
Gebaseerd op deze nieuwe inzichten is VaultGemma ontwikkeld. Het model, gebouwd op de basis van de verantwoorde Gemma-familie, is getraind met geavanceerde algoritmes om de DP-uitdagingen te overwinnen. Met een privacygarantie biedt het volgens Google bescherming op het niveau van elke trainingssequentie.
Uit tests blijkt dat VaultGemma, ondanks de privacybeperkingen, vergelijkbare prestaties levert als niet-private taalmodellen van ongeveer vijf jaar geleden. Dit bewijst de effectiviteit van de nieuwe aanpak en vormt een "solide basis voor toekomstige private AI-ontwikkelingen," aldus de Google-onderzoekers Amer Sinha en Ryan McKenna.
De gewichten van VaultGemma zijn openbaar gemaakt op platforms als Hugging Face en Kaggle, in de hoop dat de AI-gemeenschap verder kan bouwen aan de volgende generatie van veilige, verantwoorde en private AI.