HyperAIHyperAI

Command Palette

Search for a command to run...

FaceDiffuser: 音声駆動の3D顔アニメーション合成を用いたディフュージョン

Stefan Stan Kazi Injamamul Haque Zerrin Yumak

概要

音声駆動3D顔アニメーション合成は、産業界と研究の両方で難易度の高い課題となっています。最近の手法は主に確定的な深層学習方法に焦点を当てており、つまり音声入力が与えられた場合、出力は常に同じになります。しかし、現実には顔全体に存在する非言語的な表情の手がかりは本質的に非確定的です。さらに、多くのアプローチは3D頂点ベースのデータセットに重点を置いており、既存の顔アニメーションパイプラインと互換性のあるリグ付きキャラクター向けの手法は少ないのが現状です。これらの問題を解決するために、私たちはFaceDiffuserという非確定的な深層学習モデルを提案します。このモデルは3D頂点およびブレンドシェイプベースのデータセットを使用して訓練されます。当社の手法は拡散技術に基づいており、事前学習された大規模な音声表現モデルHuBERT(Hubert)を使用してオーディオ入力をエンコードします。当社が知る限りでは、拡散方法を音声駆動3D顔アニメーション合成に適用した最初の試みとなります。私たちは広範な客観的および主観的分析を行い、当社のアプローチが最先端の手法と比較して同等かそれ以上の結果を得ていることを示しています。また、ブレンドシェイプベースのリグ付きキャラクターに基づく新しい自社データセットも紹介します。付属する補足ビデオをご覧いただくことをお勧めします。コードとデータセットは公開される予定です。注:HuBERT (Hubert) という表記で、「(Hubert)」部分は原文を括弧内に示すことで情報の一貫性を保っています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています