HyperAIHyperAI
vor 2 Monaten

FaceDiffuser: Synthese von 3D-Gesichtsanimationen durch Sprachsteuerung unter Verwendung von Diffusion

Stan, Stefan ; Haque, Kazi Injamamul ; Yumak, Zerrin
FaceDiffuser: Synthese von 3D-Gesichtsanimationen durch Sprachsteuerung unter Verwendung von Diffusion
Abstract

Die Synthese von sprachgesteuerten 3D-Gesichtsanimationen ist sowohl in der Industrie als auch in der Forschung eine herausfordernde Aufgabe. Aktuelle Methoden konzentrieren sich hauptsächlich auf deterministische Tiefenlernverfahren, was bedeutet, dass bei einer bestimmten Spracheingabe das Ergebnis immer identisch ist. In der Realität sind jedoch die nichtverbalen Gesichtshinweise, die das gesamte Gesicht durchziehen, ihrer Natur nach nichtdeterministisch. Zudem fokussieren sich die meisten Ansätze auf 3D-Vertex-basierte Datensätze, während es an Methoden mangelt, die mit bestehenden Gesichtsanimationspipelines für geriggte Charaktere kompatibel sind. Um diese Probleme zu beseitigen, präsentieren wir FaceDiffuser, ein nichtdeterministisches Tiefenlernmodell zur Generierung von sprachgesteuerten Gesichtsanimationen, das sowohl mit 3D-Vertex- als auch mit Blendshape-basierten Datensätzen trainiert wurde. Unser Verfahren basiert auf der Diffusionsmethode und verwendet das vortrainierte große Sprachrepräsentationsmodell HuBERT (Hidden Unit BERT), um die Audioeingabe zu kodieren. Nach unserem Wissen sind wir die Ersten, die die Diffusionsmethode für die Synthese von sprachgesteuerten 3D-Gesichtsanimationen einsetzen. Wir haben umfangreiche objektive und subjektive Analysen durchgeführt und zeigen, dass unser Ansatz vergleichbare oder bessere Ergebnisse als state-of-the-art-Methoden erzielt. Darüber hinaus stellen wir einen neuen intern entwickelten Datensatz vor, der auf einem Blendshape-basierten geriggten Charakter basiert. Wir empfehlen das Begleitvideo zur Visualisierung anzusehen. Der Code und der Datensatz werden öffentlich zugänglich gemacht.

FaceDiffuser: Synthese von 3D-Gesichtsanimationen durch Sprachsteuerung unter Verwendung von Diffusion | Neueste Forschungsarbeiten | HyperAI