HyperAIHyperAI

Command Palette

Search for a command to run...

FaceXHuBERT: テキストなし音声駆動の表現豊かな3D顔アニメーション合成を用いた自己監督型音声表現学習

Haque Kazi Injamamul ; Yumak Zerrin

概要

本論文では、FaceXHuBERTを紹介します。これは、音声駆動のテキストレス3D顔アニメーション生成手法であり、音声中の個別化された微妙なサイン(例:アイデンティティ、感情、ためらい)を捉えることが可能です。また、バックグラウンドノイズに非常に強く、様々な状況で録音されたオーディオ(例:複数人の会話)を処理することができます。最近のアプローチでは、オーディオとテキストの両方を入力として全体的な顔アニメーションを生成するエンドツーエンドの深層学習が用いられています。しかし、公開されている表現豊かなオーディオ-3D顔アニメーションデータセットの不足が大きなボトルネックとなっています。その結果、生成されたアニメーションはまだ正確なリップシンクや表現力、個人固有情報、汎用性に関する問題を持っています。我々は訓練過程において自己監督型事前学習モデルであるHuBERTモデルを効果的に使用することで、大規模な語彙を使用せずに音声中の語彙的および非語彙的情報を取り込むことが可能となりました。さらに、バイナリ感情条件と話者アイデンティティによる訓練ガイドにより、最も微細な顔の動きも区別することが可能になりました。我々は基準となる真実値と最先端技術との比較において広範な客観的および主観的評価を行いました。知覚ユーザースタディでは、最先端技術と比較して78%の時間でアニメーションの現実感が優れていることを示しています。さらに、複雑なシーケンシャルモデル(例:トランスフォーマー)を使用することなく4倍速いという利点があります。本論文を読む前に補足ビデオをご覧顶くことを強くお勧めします。また、GitHubリポジトリへのリンクとともに実装と評価コードを提供しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています