8ヶ月前

概要

音声駆動3D顔アニメーションは、人間の顔の複雑な形状と3Dオーディオビジュアルデータの限られた可用性により、挑戦的な課題となっています。従来の研究では、通常、短いオーディオウィンドウの Foneme（音素）レベルの特徴を学習し、コンテクストが限定されているため、ときには不正確な口唇運動が生じることがあります。この制約に対処するために、我々は長期的なオーディオコンテクストをエンコードし、3D顔メッシュのシーケンスを自己回帰的に予測する Transformer ベースの自己回帰モデル FaceFormer を提案します。データ不足問題に対応するため、自己監督で事前学習された音声表現を統合しています。また、この特定のタスクに適した2つのバイアステンションメカニズムを開発しました。これらは、バイアス付きクロスモーダルマルチヘッド（MH）注意機構と周期的な位置情報符号化戦略を持つバイアス付き因果MH自己注意機構です。前者は効果的にオーディオ-モーションモーダルを合わせる能力を持ち、後者はより長いオーディーシーケンスへの汎化能力を提供します。広範な実験と知覚ユーザースタディにより、当方針が既存の最先端技術を上回ることが示されました。コードは公開される予定です。

ソースPDF