
Microsoft ha da poco annunciato VASA-1, un modello AI in grado di generare il video di una persona mentre sta parlando, partendo da una sua foto e da un audio.
Attualmente, non è possibile provarlo, ma sono disponibili dei video di esempio sul sito di Microsoft.
Di seguito, un video dimostrazione di ciò che è in grado di realizzare.
Fonte: Microsoft Research
VASA-1 non si limita solamente a questo, poiché è anche possibile:
- Stabilire in che direzione debba guardare il soggetto;
- Scegliere la distanza del soggetto "dalla videocamera";
- Scegliere l'emozione da "mostrare" (es. felicità, rabbia o sorpresa).
Perché è importante?
Al contrario di molti prodotti presenti sul mercato (per esempio Synthesia), che richiedono come addestramento una serie di video registrati in uno studio, VASA-1 si concentra invece sull'utilizzare il minor numero di informazioni possibili per assolvere a task tutto sommato simili.
Vedendola invece da un punto di vista più ampio, pare che Microsoft stia ampiamente spingendo sulla via della semplicità d'uso. Per esempio, nel 2023 ha pubblicato un paper riguardo VALL-E, uno strumento in grado potenzialmente di clonare la voce partendo da un audio di soli 3 secondi.
Dunque, ipoteticamente, se qualcuno avesse accesso sia a VALL-E che a VASA-1, potrebbe prendere un audio di una persona della durata di pochi secondi, generare un audio a proprio piacimento tramite VALL-E, e creare un video realistico utilizzando una foto di questa persona tramite VASA-1.
Il paper ufficiale è disponibile al seguente link.