HyperAIHyperAI

Command Palette

Search for a command to run...

EMAGE: 統合的な全体的な共発話ジェスチャ生成へのアプローチ - 表現力豊かなマスク付き音声ジェスチャモデルを用いて

Haiyang Liu Zihao Zhu Giorgio Becherini Yichen Peng Mingyang Su You Zhou Xuefei Zhe Naoya Iwamoto Bo Zheng Michael J. Black

概要

私たちは、音声とマスクされたジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークであるEMAGEを提案します。このフレームワークは、顔、局所的な体、手、および全体的な動きを含むジェスチャーの生成をカバーしています。まず、BEAT2(BEAT-SMPLX-FLAME)という新しいメッシュレベルの包括的な共話ジェスチャーデータセットを紹介します。BEAT2はMoShed SMPL-XボディとFLAMEヘッドパラメーターを組み合わせ、頭部、首、および指の動きのモデリングをさらに洗練させることで、コミュニティ標準化され高品質な3Dモーションキャプチャデータセットを提供します。EMAGEはトレーニング中にマスクされた身体ジェスチャーの事前知識を利用することで推論性能を向上させます。これにはマスク付きオーディオ・ジェスチャートランスフォーマーが含まれており、音声からジェスチャーへの生成とマスクされたジェスチャーの再構築に関する共同トレーニングを可能にし、効果的に音声と身体ジェスチャーのヒントをエンコードします。次に、マスクされたジェスチャーからエンコードされた身体ヒントを使用して顔と身体の動きを別々に生成します。さらに、EMAGEは音声のリズムと内容からスピーチ特徴量を適応的に統合し、4つの構成的なVQ-VAE(Vector Quantized Variational Autoencoder)を使用して結果の忠実度と多様性を向上させます。実験では、EMAGEが最先端の性能を持つ包括的なジェスチャーを生成できること、そして事前に定義された空間時間的なジェスチャーアクションを受け入れて完全なオーディオ同期結果を作り出す柔軟性があることが示されています。私たちのコードとデータセットは以下のURLで公開されています: https://pantomatrix.github.io/EMAGE/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
EMAGE: 統合的な全体的な共発話ジェスチャ生成へのアプローチ - 表現力豊かなマスク付き音声ジェスチャモデルを用いて | 記事 | HyperAI超神経