Witold Kepinski - 19 april 2024

Microsoft introduceert VASA: AI-framework voor realistische pratende avatars

Microsoft Research heeft een nieuw AI-framework gepresenteerd genaamd VASA. Dit framework kan op basis van een enkele afbeelding en een audiobestand levensechte pratende avatars creëren.

Software Ai Artificial intelligence Cloud Technology Innovatie

Microsoft introduceert VASA: AI-framework voor realistische pratende avatars image

VASA-1, het eerste model van dit framework, kan niet alleen lippen synchroniseren met audio, maar ook een breed scala aan gezichtsuitdrukkingen en natuurlijke hoofdbewegingen genereren. Dit zorgt voor een realistische en levendige weergave.

De kern van VASA-1 bestaat uit twee innovaties:

Een model dat gezichtsdynamiek en hoofdbewegingen genereert in een latente ruimte.
De ontwikkeling van deze latente ruimte op basis van videogegevens, waardoor deze expressief en geordend is.

Uitgebreide experimenten tonen aan dat VASA-1 beter presteert dan eerdere methoden op verschillende vlakken. Het genereert niet alleen video's met hoge kwaliteit en realistische gezichts- en hoofdbewegingen, maar kan dit ook online doen met een snelheid van 40 beelden per seconde (FPS) voor video's van 512x512 pixels. De vertraging bij het opstarten is daarbij minimaal. Dit opent de deur naar real-time interactie met levensechte avatars die menselijke gesprekken kunnen nabootsen.

Belangrijke opmerking: De portretten op de projectpagina van Microsoft Research zijn virtueel gegenereerd en beelden geen bestaande personen uit. De focus ligt op het creëren van expressieve vaardigheden voor virtuele, interactieve personages, niet op het imiteren van echte mensen. Dit is puur een onderzoeksdemonstratie en er zijn geen plannen voor een product of API.

Extra functionaliteiten:

Controle over de gegenereerde content: Het model accepteert optionele signalen zoals oogrichting, afstand van het hoofd en emotionele accenten.
Generalisatie buiten de trainingsdata: VASA-1 kan foto's en audio verwerken die buiten de gebruikte trainingsdata vallen, zoals artistieke foto's, zang en niet-Engelse spraak.
Real-time efficiëntie: In offline modus genereert VASA-1 videobeelden van 512x512 pixels met 45 FPS. In online streaming modus is dit 40 FPS met een vertraging van slechts 170ms (gemeten op een desktop PC met een NVIDIA RTX 4090 GPU).

Ethiek en verantwoord gebruik van AI:

Microsoft Research benadrukt dat VASA-1 gericht is op positieve toepassingen van AI-avatars. Het is niet bedoeld om misleidende content te creëren. Net als andere contentgeneratietechnieken kan het echter wel worden misbruikt voor imitatie van echte mensen. Microsoft is hier fel tegen gekant en wil hun techniek juist inzetten voor het detecteren van deepfakes.

Wel erkent men de potentiële gevaren, maar benadrukt ook de grote voordelen. Denk bijvoorbeeld aan verbetering van toegankelijkheid in educatie, ondersteuning voor mensen met communicatieproblemen of het bieden van gezelschap of therapeutische hulp.

Microsoft streeft naar verantwoordelijke ontwikkeling van AI met als doel het welzijn van de mensheid te bevorderen. Daarom zijn er voorlopig geen plannen voor een online demo, API, product of verdere implementatiedetails totdat zeker is dat de technologie op een verantwoorde en wettelijk correcte manier wordt gebruikt.

Lees meer hier.

Tip de redactie

Gartner IT Symposium Barcelona 06-2026 AI BW + BN

Meer over Software

Nieuws - Witold Kepinski - 26-06-2026

Pega introduceert alternatief voor afrekenen per token

ai-token, ai, Artificial intelligence, Financieel, data

Nieuws - Witold Kepinski - 26-06-2026

Advisie gaat verder onder de naam Alistar

Software, data, Cloud, applicatie, Managed Services

Nieuws - Wouter Hoeffnagel - 26-06-2026

SUSE en Openchip bundelen krachten rondom soevereine softwarestack voor RISC-V

Software, Soevereiniteit, Open Source, Hardware,

Alles over Software

Over Witold Kepinski

Witold Kepinski (1969) is Bestuurder, Editor-in-Chief en Director Content van Dutch IT Channel en Dutch IT Leaders. Witold Kepinski is 25 jaar actief in de IT Media en Tech Business branche

Witold Kepinski geeft met een gespecialiseerd team van redacteuren, bloggers en videomakers inzicht in tech business trends en toepassingen waarmee IT-beslissers en Channel Partners impact maken.

Auteur pagina

Microsoft introduceert VASA: AI-framework voor realistische pratende avatars

Dutch IT events

Meer over Software

Over Witold Kepinski