2ヶ月前

FaceFormer: 変換器を用いた音声駆動型3D顔アニメーション

Fan, Yingruo ; Lin, Zhaojiang ; Saito, Jun ; Wang, Wenping ; Komura, Taku
FaceFormer: 変換器を用いた音声駆動型3D顔アニメーション
要約

音声駆動3D顔アニメーションは、人間の顔の複雑な形状と3Dオーディオビジュアルデータの限られた可用性により、挑戦的な課題となっています。従来の研究では、通常、短いオーディオウィンドウの Foneme(音素)レベルの特徴を学習し、コンテクストが限定されているため、ときには不正確な口唇運動が生じることがあります。この制約に対処するために、我々は長期的なオーディオコンテクストをエンコードし、3D顔メッシュのシーケンスを自己回帰的に予測する Transformer ベースの自己回帰モデル FaceFormer を提案します。データ不足問題に対応するため、自己監督で事前学習された音声表現を統合しています。また、この特定のタスクに適した2つのバイアステンションメカニズムを開発しました。これらは、バイアス付きクロスモーダルマルチヘッド(MH)注意機構と周期的な位置情報符号化戦略を持つバイアス付き因果MH自己注意機構です。前者は効果的にオーディオ-モーションモーダルを合わせる能力を持ち、後者はより長いオーディーシーケンスへの汎化能力を提供します。広範な実験と知覚ユーザースタディにより、当方針が既存の最先端技術を上回ることが示されました。コードは公開される予定です。

FaceFormer: 変換器を用いた音声駆動型3D顔アニメーション | 最新論文 | HyperAI超神経