2ヶ月前

CodeTalker: 音声駆動型3D顔アニメーションと離散運動事前情報

Xing, Jinbo ; Xia, Menghan ; Zhang, Yuechen ; Cun, Xiaodong ; Wang, Jue ; Wong, Tien-Tsin

要約

音声駆動3D顔アニメーションは広く研究されてきましたが、現実感と生き生きとした表現を達成するためには、非常に不確定な性質と音声視覚データの不足という課題が依然として存在しています。既存の研究では、通常、クロスモーダルマッピングを回帰タスクとして定式化しますが、これには平均値への回帰問題があり、顔の動きが過度に滑らかになる傾向があります。本論文では、学習済みコードブックの有限プロキシ空間におけるコードクエリタスクとして音声駆動顔アニメーションを扱うことを提案します。これにより、クロスモーダルマッピングの不確実性を低減し、生成される動きの鮮やかさを効果的に向上させることができます。コードブックは実際の顔の動きによる自己再構成によって学習され、現実的な顔の動きの事前知識が埋め込まれています。離散的な動作空間においては、時間的自己回帰モデルを使用して入力音声信号から順次顔の動きを合成することで、口パク（lip-sync）と適切な表情を保証します。我々は本手法が現在の最先端手法よりも定性的および定量的に優れていることを示しました。また、ユーザースタディにより知覚品質における我々の優位性がさらに確認されています。注：「lip-sync」は日本語でも「口パク」という言葉でよく使われますが、「lip-sync」（リップシンク）という英語表記も併記しました。