FaceFormer: Sprachgesteuerte 3D-Gesichtsanimation mit Transformers

Die sprachgesteuerte 3D-Gesichtsanimation ist aufgrund der komplexen Geometrie menschlicher Gesichter und der begrenzten Verfügbarkeit von 3D-Audiovisuellen Daten herausfordernd. Frühere Arbeiten konzentrieren sich in der Regel darauf, phonemebasierte Merkmale kurzer Audioschnitte mit begrenztem Kontext zu lernen, was gelegentlich zu ungenauen Lippenbewegungen führt. Um diese Einschränkung zu überwinden, schlagen wir ein transformerbasiertes autoregressives Modell vor, das FaceFormer genannt wird. Dieses Modell kodiert den langfristigen Audio-Kontext und prognostiziert sequentiell animierte 3D-Gesichtsmaschen. Um das Problem der Datenknappheit anzugehen, integrieren wir selbstüberwachte, vortrainierte Spracherkennungsrepräsentationen. Zudem entwickeln wir zwei aufgabenangepasste, verfälschte Aufmerksamkeitsmechanismen: die verfälschte multimodale Mehrkopf-(MH)-Aufmerksamkeit und die verfälschte kausale MH-Selbstaufmerksamkeit mit einer periodischen Positionscodierung (periodische positionale Kodierungsstrategie). Der erste Mechanismus passt die Audiomodalität effektiv mit der Bewegungsmodalität an, während der zweite Mechanismus Fähigkeiten bietet, um längere Audifolgen besser generalisieren zu können. Ausführliche Experimente und eine perzeptuelle Nutzerstudie zeigen, dass unser Ansatz den bisherigen Stand der Technik übertrifft. Der Code wird zur Verfügung gestellt.