HyperAIHyperAI

Command Palette

Search for a command to run...

FaceDiffuser: Synthese von 3D-Gesichtsanimationen durch Sprachsteuerung unter Verwendung von Diffusion

Stefan Stan Kazi Injamamul Haque Zerrin Yumak

Zusammenfassung

Die Synthese von sprachgesteuerten 3D-Gesichtsanimationen ist sowohl in der Industrie als auch in der Forschung eine herausfordernde Aufgabe. Aktuelle Methoden konzentrieren sich hauptsächlich auf deterministische Tiefenlernverfahren, was bedeutet, dass bei einer bestimmten Spracheingabe das Ergebnis immer identisch ist. In der Realität sind jedoch die nichtverbalen Gesichtshinweise, die das gesamte Gesicht durchziehen, ihrer Natur nach nichtdeterministisch. Zudem fokussieren sich die meisten Ansätze auf 3D-Vertex-basierte Datensätze, während es an Methoden mangelt, die mit bestehenden Gesichtsanimationspipelines für geriggte Charaktere kompatibel sind. Um diese Probleme zu beseitigen, präsentieren wir FaceDiffuser, ein nichtdeterministisches Tiefenlernmodell zur Generierung von sprachgesteuerten Gesichtsanimationen, das sowohl mit 3D-Vertex- als auch mit Blendshape-basierten Datensätzen trainiert wurde. Unser Verfahren basiert auf der Diffusionsmethode und verwendet das vortrainierte große Sprachrepräsentationsmodell HuBERT (Hidden Unit BERT), um die Audioeingabe zu kodieren. Nach unserem Wissen sind wir die Ersten, die die Diffusionsmethode für die Synthese von sprachgesteuerten 3D-Gesichtsanimationen einsetzen. Wir haben umfangreiche objektive und subjektive Analysen durchgeführt und zeigen, dass unser Ansatz vergleichbare oder bessere Ergebnisse als state-of-the-art-Methoden erzielt. Darüber hinaus stellen wir einen neuen intern entwickelten Datensatz vor, der auf einem Blendshape-basierten geriggten Charakter basiert. Wir empfehlen das Begleitvideo zur Visualisierung anzusehen. Der Code und der Datensatz werden öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FaceDiffuser: Synthese von 3D-Gesichtsanimationen durch Sprachsteuerung unter Verwendung von Diffusion | Paper | HyperAI