vor 2 Monaten

FaceXHuBERT: Textfreie, sprachgesteuerte (X)pressive 3D-Gesichtsanimation Synthese durch selbstüberwachtes Spracherkennungslernen

Haque, Kazi Injamamul ; Yumak, Zerrin

Abstract

Dieses Papier stellt FaceXHuBERT vor, eine textfreie, sprachgesteuerte Methode zur Generierung von 3D-Gesichtsanimationen, die es ermöglicht, personalisierte und feine Hinweise in der Sprache (z.B. Identität, Emotionen und Zögern) zu erfassen. Die Methode ist außerdem sehr robust gegenüber Hintergrundgeräuschen und kann Audios aus verschiedenen Situationen (z.B. mehrere sprechende Personen) verarbeiten. Aktuelle Ansätze verwenden End-to-End-Tiefenlernen, das sowohl Audio als auch Text als Eingabe berücksichtigt, um Gesichtsanimationen für das gesamte Gesicht zu generieren. Allerdings stellt die Knappheit an öffentlich verfügbaren expressiven Audio-3D-Gesichtsanimations-Datensätzen eine wesentliche Engstelle dar. Die resultierenden Animationen haben immer noch Probleme hinsichtlich genauer Lippenbewegungssynchronisation, Ausdrucksstärke, personenspezifischer Informationen und Übertragbarkeit. Wir setzen im Trainingsprozess effektiv ein selbstüberwachtes vortrainiertes HuBERT-Modell ein, das es uns ermöglicht, sowohl lexikalische als auch nicht-lexikalische Informationen im Audio zu integrieren, ohne einen großen Wörterbestand zu verwenden. Zudem führt die Steuerung des Trainings mit einer binären Emotionsbedingung und der Sprecheridentität dazu, dass selbst die kleinsten subtilen Gesichtsbewegungen unterschieden werden können. Wir haben umfangreiche objektive und subjektive Bewertungen durchgeführt und diese mit dem Grundwahrheitsmaterial sowie den neuesten Arbeiten verglichen. Eine perzeptuelle Benutzerstudie zeigt, dass unser Ansatz in 78 % der Fälle überzeugendere Ergebnisse in Bezug auf die Realitätstreue der Animation erzielt im Vergleich zum aktuellen Stand der Technik. Darüber hinaus ist unsere Methode viermal schneller und verzichtet auf komplexe sequentielle Modelle wie Transformer. Wir empfehlen dringend, das ergänzende Video vor dem Lesen des Papers anzusehen. Des Weiteren stellen wir die Implementierung und Evaluationscodes zusammen mit einem Link zu einem GitHub-Repository bereit.