HyperAIHyperAI

Command Palette

Search for a command to run...

FaceXHuBERT: Textfreie, sprachgesteuerte (X)pressive 3D-Gesichtsanimation Synthese durch selbstüberwachtes Spracherkennungslernen

Haque Kazi Injamamul ; Yumak Zerrin

Zusammenfassung

Dieses Papier stellt FaceXHuBERT vor, eine textfreie, sprachgesteuerte Methode zur Generierung von 3D-Gesichtsanimationen, die es ermöglicht, personalisierte und feine Hinweise in der Sprache (z.B. Identität, Emotionen und Zögern) zu erfassen. Die Methode ist außerdem sehr robust gegenüber Hintergrundgeräuschen und kann Audios aus verschiedenen Situationen (z.B. mehrere sprechende Personen) verarbeiten. Aktuelle Ansätze verwenden End-to-End-Tiefenlernen, das sowohl Audio als auch Text als Eingabe berücksichtigt, um Gesichtsanimationen für das gesamte Gesicht zu generieren. Allerdings stellt die Knappheit an öffentlich verfügbaren expressiven Audio-3D-Gesichtsanimations-Datensätzen eine wesentliche Engstelle dar. Die resultierenden Animationen haben immer noch Probleme hinsichtlich genauer Lippenbewegungssynchronisation, Ausdrucksstärke, personenspezifischer Informationen und Übertragbarkeit. Wir setzen im Trainingsprozess effektiv ein selbstüberwachtes vortrainiertes HuBERT-Modell ein, das es uns ermöglicht, sowohl lexikalische als auch nicht-lexikalische Informationen im Audio zu integrieren, ohne einen großen Wörterbestand zu verwenden. Zudem führt die Steuerung des Trainings mit einer binären Emotionsbedingung und der Sprecheridentität dazu, dass selbst die kleinsten subtilen Gesichtsbewegungen unterschieden werden können. Wir haben umfangreiche objektive und subjektive Bewertungen durchgeführt und diese mit dem Grundwahrheitsmaterial sowie den neuesten Arbeiten verglichen. Eine perzeptuelle Benutzerstudie zeigt, dass unser Ansatz in 78 % der Fälle überzeugendere Ergebnisse in Bezug auf die Realitätstreue der Animation erzielt im Vergleich zum aktuellen Stand der Technik. Darüber hinaus ist unsere Methode viermal schneller und verzichtet auf komplexe sequentielle Modelle wie Transformer. Wir empfehlen dringend, das ergänzende Video vor dem Lesen des Papers anzusehen. Des Weiteren stellen wir die Implementierung und Evaluationscodes zusammen mit einem Link zu einem GitHub-Repository bereit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp