2ヶ月前

ビデオから音声駆動の3D会話ジェスチャーを学習する

Habibie, Ikhsanul ; Xu, Weipeng ; Mehta, Dushyant ; Liu, Lingjie ; Seidel, Hans-Peter ; Pons-Moll, Gerard ; Elgharib, Mohamed ; Theobalt, Christian
ビデオから音声駆動の3D会話ジェスチャーを学習する
要約

私たちは、音声入力から仮想キャラクターの同期的な3次元会話ボディと手のジェスチャー、および3次元顔と頭部アニメーションを自動的にかつ共同で合成する最初の手法を提案します。当アルゴリズムは、顔表情と手のジェスチャーの間にある固有の相関関係を活用したCNNアーキテクチャを使用しています。会話ボディジェスチャーの合成は、多くの類似したジェスチャーが同じ入力音声に伴う可能性があるため、多様な問題(マルチモーダル問題)です。この設定において、生成された3次元ボディ動きのシーケンスが入力オーディオ特徴量と組み合わさた際の妥当性を測定する、Generative Adversarial Network (GAN)ベースのモデルを訓練することで、妥当なボディジェスチャーを合成します。また、野生環境での話し合う人々のビデオから33時間以上にわたる注釈付きボディ、手、顔データの大規模コーパスを作成する新しい方法も提供します。これには、最先端の一視点(モノキュラー)アプローチによる3次元ボディと手ポーズ推定、ならびに高密度3次元顔パフォーマンスキャプチャをビデオコーパスに適用します。この方法により、複雑なスタジオ内モーションキャプチャソリューションに頼る従来のアルゴリズムよりも桁違いに多いデータで訓練を行うことができ、より表現豊かな合成アルゴリズムを訓練することが可能となります。私たちの実験とユーザースタディは、音声から合成される完全な3次元キャラクターアニメーションが最先端の品質であることを示しています。

ビデオから音声駆動の3D会話ジェスチャーを学習する | 最新論文 | HyperAI超神経