2ヶ月前

FaceDiffuser: 音声駆動の3D顔アニメーション合成を用いたディフュージョン

Stan, Stefan ; Haque, Kazi Injamamul ; Yumak, Zerrin

要約

音声駆動3D顔アニメーション合成は、産業界と研究の両方で難易度の高い課題となっています。最近の手法は主に確定的な深層学習方法に焦点を当てており、つまり音声入力が与えられた場合、出力は常に同じになります。しかし、現実には顔全体に存在する非言語的な表情の手がかりは本質的に非確定的です。さらに、多くのアプローチは3D頂点ベースのデータセットに重点を置いており、既存の顔アニメーションパイプラインと互換性のあるリグ付きキャラクター向けの手法は少ないのが現状です。これらの問題を解決するために、私たちはFaceDiffuserという非確定的な深層学習モデルを提案します。このモデルは3D頂点およびブレンドシェイプベースのデータセットを使用して訓練されます。当社の手法は拡散技術に基づいており、事前学習された大規模な音声表現モデルHuBERT（Hubert）を使用してオーディオ入力をエンコードします。当社が知る限りでは、拡散方法を音声駆動3D顔アニメーション合成に適用した最初の試みとなります。私たちは広範な客観的および主観的分析を行い、当社のアプローチが最先端の手法と比較して同等かそれ以上の結果を得ていることを示しています。また、ブレンドシェイプベースのリグ付きキャラクターに基づく新しい自社データセットも紹介します。付属する補足ビデオをご覧いただくことをお勧めします。コードとデータセットは公開される予定です。注：HuBERT (Hubert) という表記で、「(Hubert)」部分は原文を括弧内に示すことで情報の一貫性を保っています。