8ヶ月前

概要

本論文では、FaceXHuBERTを紹介します。これは、音声駆動のテキストレス3D顔アニメーション生成手法であり、音声中の個別化された微妙なサイン（例：アイデンティティ、感情、ためらい）を捉えることが可能です。また、バックグラウンドノイズに非常に強く、様々な状況で録音されたオーディオ（例：複数人の会話）を処理することができます。最近のアプローチでは、オーディオとテキストの両方を入力として全体的な顔アニメーションを生成するエンドツーエンドの深層学習が用いられています。しかし、公開されている表現豊かなオーディオ-3D顔アニメーションデータセットの不足が大きなボトルネックとなっています。その結果、生成されたアニメーションはまだ正確なリップシンクや表現力、個人固有情報、汎用性に関する問題を持っています。我々は訓練過程において自己監督型事前学習モデルであるHuBERTモデルを効果的に使用することで、大規模な語彙を使用せずに音声中の語彙的および非語彙的情報を取り込むことが可能となりました。さらに、バイナリ感情条件と話者アイデンティティによる訓練ガイドにより、最も微細な顔の動きも区別することが可能になりました。我々は基準となる真実値と最先端技術との比較において広範な客観的および主観的評価を行いました。知覚ユーザースタディでは、最先端技術と比較して78%の時間でアニメーションの現実感が優れていることを示しています。さらに、複雑なシーケンシャルモデル（例：トランスフォーマー）を使用することなく4倍速いという利点があります。本論文を読む前に補足ビデオをご覧顶くことを強くお勧めします。また、GitHubリポジトリへのリンクとともに実装と評価コードを提供しています。

ソースPDF