VASA: Microsoft-KI generiert aus Foto und Sprachaufnahme "sprechendes Gesicht"

Bei Microsoft wurde ein Videogenerator entwickelt, der aus einem Foto und einer Audioaufnahme von Sprache ein Video erschafft. Veröffentlicht wird er nicht.

In Pocket speichern vorlesen Druckansicht 38 Kommentare lesen
Mehrere fotorealistisch erscheinende Bilder von Gesichtern mit starker Mimik

(Bild: Microsoft Asia)

Lesezeit: 2 Min.

Ein Forschungsteam von Microsoft hat ein KI-Werkzeug entwickelt, das aus einem Foto und einer Sprachaufnahme erstaunlich echt aussehende Videoclips erzeugen kann, in denen das Foto scheinbar spricht. Das Framework nennen sie VASA, die erste Version jetzt VASA-1. Die Abkürzung bezieht sich auf die "visuell-affektiven Fähigkeiten" ("visual affective skills") der generierten Avatare. Das Werkzeug sei nicht nur in der Lage, die "wertvolle Synchronisation zwischen Lippen und Ton" herzustellen, sondern kann auch ein großes Spektrum an ausdrucksstarker Mimik und natürlichen Kopfbewegungen simulieren. VASA könne bereits jetzt mit Audiodateien beliebiger Länge umgehen und nahtlos sprechende Videos der Gesichter auf einem PC mit einer Nvidia RTX 4090 erzeugen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Auf einer Projektseite haben die Mitarbeiter von Microsoft Asia eine ganze Reihe von Beispielen zusammengetragen, die die Leistungsfähigkeit des Werkzeugs unter Beweis stellen sollen. Zu sehen sind zahlreiche quadratische Videos von unterschiedlichen Gesichtern, die ausdrucksstark unterschiedliche Texte vorsprechen. Das Team versichert, dass es sich bei allen Porträts um virtuelle, nicht existierende KI-generierte Darstellungen handelt – die einzige Ausnahme ist eine Animation der Mona Lisa von Leonardo da Vinci. Zu einigen Videos gibt es Gegenüberstellungen, wie das generierte Gesicht den Text mit unterschiedlichen Emotionen rezitiert. Ein anderes Beispiel zeigt drei Frauengesichter, die komplett synchron einen Text sprechen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Ziel des Forschungsprojekts ist eine Technik, um fotorealistische Avatare in Echtzeit zu animieren, schreibt das Team noch. Das gesteht aber ein, dass die Technik dazu missbraucht werden kann, um echte Menschen zu verkörpern. Die potenziellen Vorteile würden die Forschung daran aber rechtfertigen, ist die Gruppe überzeugt. Aus den genannten Gründen gebe es aktuell keinen Plan, eine Onlinedemo zu veröffentlichen, einen Entwicklungszugang bereitzustellen oder gar ein darauf aufbauendes Produkt zu veröffentlichen. Das werde man erst angehen, wenn man sicher sein könne, dass die Technik nur verantwortungsbewusst genutzt wird. Jetzt habe man die Forschung nur vorstellen wollen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

(mho)