VASA: Microsoft-KI generiert aus Foto und Sprachaufnahme "sprechendes Gesicht"

Bei Microsoft wurde ein Videogenerator entwickelt, der aus einem Foto und einer Audioaufnahme von Sprache ein Video erschafft. Veröffentlicht wird er nicht.

38

(Bild: Microsoft Asia)

19.04.2024, 08:22 Uhr

Lesezeit: 2 Min.

Von

Martin Holland

Ein Forschungsteam von Microsoft hat ein KI-Werkzeug entwickelt, das aus einem Foto und einer Sprachaufnahme erstaunlich echt aussehende Videoclips erzeugen kann, in denen das Foto scheinbar spricht. Das Framework nennen sie VASA, die erste Version jetzt VASA-1. Die Abkürzung bezieht sich auf die "visuell-affektiven Fähigkeiten" ("visual affective skills") der generierten Avatare. Das Werkzeug sei nicht nur in der Lage, die "wertvolle Synchronisation zwischen Lippen und Ton" herzustellen, sondern kann auch ein großes Spektrum an ausdrucksstarker Mimik und natürlichen Kopfbewegungen simulieren. VASA könne bereits jetzt mit Audiodateien beliebiger Länge umgehen und nahtlos sprechende Videos der Gesichter auf einem PC mit einer Nvidia RTX 4090 erzeugen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Videos immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Drei komplett synchron sprechende Frauengesichter

(Quelle: Microsoft Asia)

Auf einer Projektseite haben die Mitarbeiter von Microsoft Asia eine ganze Reihe von Beispielen zusammengetragen, die die Leistungsfähigkeit des Werkzeugs unter Beweis stellen sollen. Zu sehen sind zahlreiche quadratische Videos von unterschiedlichen Gesichtern, die ausdrucksstark unterschiedliche Texte vorsprechen. Das Team versichert, dass es sich bei allen Porträts um virtuelle, nicht existierende KI-generierte Darstellungen handelt – die einzige Ausnahme ist eine Animation der Mona Lisa von Leonardo da Vinci. Zu einigen Videos gibt es Gegenüberstellungen, wie das generierte Gesicht den Text mit unterschiedlichen Emotionen rezitiert. Ein anderes Beispiel zeigt drei Frauengesichter, die komplett synchron einen Text sprechen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Videos immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die Mona Lisa etwas anders

(Quelle: Microsoft Asia)

Keine Veröffentlichung des Tools geplant

Ziel des Forschungsprojekts ist eine Technik, um fotorealistische Avatare in Echtzeit zu animieren, schreibt das Team noch. Das gesteht aber ein, dass die Technik dazu missbraucht werden kann, um echte Menschen zu verkörpern. Die potenziellen Vorteile würden die Forschung daran aber rechtfertigen, ist die Gruppe überzeugt. Aus den genannten Gründen gebe es aktuell keinen Plan, eine Onlinedemo zu veröffentlichen, einen Entwicklungszugang bereitzustellen oder gar ein darauf aufbauendes Produkt zu veröffentlichen. Das werde man erst angehen, wenn man sicher sein könne, dass die Technik nur verantwortungsbewusst genutzt wird. Jetzt habe man die Forschung nur vorstellen wollen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Videos immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Vorführung von VASA-1 in Echtzeit

(Quelle: Microsoft Asia)

Lesen Sie auch

Bilder in Videos verwandeln: Runway Gen-2 im Test

(mho)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

VASA: Microsoft-KI generiert aus Foto und Sprachaufnahme "sprechendes Gesicht"

Empfohlener redaktioneller Inhalt

Empfohlener redaktioneller Inhalt

Keine Veröffentlichung des Tools geplant

Empfohlener redaktioneller Inhalt

Lesen Sie auch

Bilder in Videos verwandeln: Runway Gen-2 im Test

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.