8ヶ月前

概要

音声駆動3D顔アニメーション技術の開発と、その多様なマルチメディア分野への応用について述べます。従来の研究では、オーディオ信号から現実的な唇の動きや表情を生成する有望な結果が得られてきました。しかし、データのみに依存する伝統的な回帰モデルは、正確なラベルへのアクセスの困難さや異なるモダリティ間のドメインギャップなどの基本的な問題に直面しており、精度や一貫性に欠ける不満足な結果をもたらしています。これらの課題を解決し、生成される唇の動きの視覚的精度を向上させつつラベリングデータへの依存度を低減するために、我々は新しいフレームワークSelfTalk（自己監督型クロスモーダルネットワークシステム）を提案します。このフレームワークは、顔アニメーター、音声認識器、およびリップリーディング解釈器という3つのモジュールから構成されます。SelfTalkの核心となるのは、音声、テキスト、唇形状間で互換性のある特徴量を交換するための可換訓練図です。これにより、我々のモデルはこれらの要素間の複雑な関連性を学習することが可能となります。提案されたフレームワークは、リップリーディング解釈器から得られた知識を利用してより現実的な唇形状を生成します。多数の実験とユーザースタディによって示されたように、我々が提案する手法は定性的にも定量的にも最先端の性能を達成しています。補足ビデオをご覧いただくことをお勧めします。

ソースPDF コードを表示