Witold Kepinski - 19 april 2024

Microsoft introduceert VASA: AI-framework voor realistische pratende avatars

Microsoft Research heeft een nieuw AI-framework gepresenteerd genaamd VASA. Dit framework kan op basis van een enkele afbeelding en een audiobestand levensechte pratende avatars creëren.

Microsoft introduceert VASA: AI-framework voor realistische pratende avatars image

VASA-1, het eerste model van dit framework, kan niet alleen lippen synchroniseren met audio, maar ook een breed scala aan gezichtsuitdrukkingen en natuurlijke hoofdbewegingen genereren. Dit zorgt voor een realistische en levendige weergave.

De kern van VASA-1 bestaat uit twee innovaties:

  • Een model dat gezichtsdynamiek en hoofdbewegingen genereert in een latente ruimte.
  • De ontwikkeling van deze latente ruimte op basis van videogegevens, waardoor deze expressief en geordend is.

Uitgebreide experimenten tonen aan dat VASA-1 beter presteert dan eerdere methoden op verschillende vlakken. Het genereert niet alleen video's met hoge kwaliteit en realistische gezichts- en hoofdbewegingen, maar kan dit ook online doen met een snelheid van 40 beelden per seconde (FPS) voor video's van 512x512 pixels. De vertraging bij het opstarten is daarbij minimaal. Dit opent de deur naar real-time interactie met levensechte avatars die menselijke gesprekken kunnen nabootsen.

Belangrijke opmerking: De portretten op de projectpagina van Microsoft Research zijn virtueel gegenereerd en beelden geen bestaande personen uit. De focus ligt op het creëren van expressieve vaardigheden voor virtuele, interactieve personages, niet op het imiteren van echte mensen. Dit is puur een onderzoeksdemonstratie en er zijn geen plannen voor een product of API.

Extra functionaliteiten:

  • Controle over de gegenereerde content: Het model accepteert optionele signalen zoals oogrichting, afstand van het hoofd en emotionele accenten.
  • Generalisatie buiten de trainingsdata: VASA-1 kan foto's en audio verwerken die buiten de gebruikte trainingsdata vallen, zoals artistieke foto's, zang en niet-Engelse spraak.
  • Real-time efficiëntie: In offline modus genereert VASA-1 videobeelden van 512x512 pixels met 45 FPS. In online streaming modus is dit 40 FPS met een vertraging van slechts 170ms (gemeten op een desktop PC met een NVIDIA RTX 4090 GPU).

Ethiek en verantwoord gebruik van AI:

Microsoft Research benadrukt dat VASA-1 gericht is op positieve toepassingen van AI-avatars. Het is niet bedoeld om misleidende content te creëren. Net als andere contentgeneratietechnieken kan het echter wel worden misbruikt voor imitatie van echte mensen. Microsoft is hier fel tegen gekant en wil hun techniek juist inzetten voor het detecteren van deepfakes.

Wel erkent men de potentiële gevaren, maar benadrukt ook de grote voordelen. Denk bijvoorbeeld aan verbetering van toegankelijkheid in educatie, ondersteuning voor mensen met communicatieproblemen of het bieden van gezelschap of therapeutische hulp.

Microsoft streeft naar verantwoordelijke ontwikkeling van AI met als doel het welzijn van de mensheid te bevorderen. Daarom zijn er voorlopig geen plannen voor een online demo, API, product of verdere implementatiedetails totdat zeker is dat de technologie op een verantwoorde en wettelijk correcte manier wordt gebruikt.

Lees meer hier.

Nutanix BW start 6 mei - 20 mei
Nutanix BN start 6 mei - 20 mei