HyperAIHyperAI

Command Palette

Search for a command to run...

階層的なクロスモーダル関連学習による共話ジェスチャー生成

Xian Liu Qianyi Wu Hang Zhou Yinghao Xu Rui Qian Xinyi Lin Xiaowei Zhou Wayne Wu Bo Dai Bolei Zhou

概要

発話と整合性のある身体およびジェスチャーの動きを生成することは、仮想アバター作成において長年にわたり取り組まれてきた課題である。従来の研究では、すべての関節の姿勢を同時に生成する包括的なアプローチが用いられることが多かった。しかし、このような単純なパイプラインでは、細粒度な発話連動ジェスチャーを生成することができない。注目すべき点として、発話における階層的な意味構造と人間のジェスチャーにおける階層的構造は、自然に複数の粒度に分けて記述でき、それらを関連付けることが可能である。発話音声と人間のジェスチャーの間に豊富な関係性を活用するため、本研究では階層的音声からジェスチャー生成(Hierarchical Audio-to-Gesture, HA2G)という新しいフレームワークを提案する。HA2Gでは、階層的音声学習器(Hierarchical Audio Learner)が、意味の粒度に応じた音声表現を抽出する。その後、階層的なアプローチで段階的に全身の姿勢を生成する階層的姿勢推定器(Hierarchical Pose Inferer)が動作する。合成ジェスチャーの品質を向上させるために、音声とテキストのアライメントに基づく対照学習戦略を導入した。広範な実験および人間評価の結果、本手法は現実的で自然な発話連動ジェスチャーを生成でき、従来手法と比較して明確な優位性を示した。プロジェクトページ:https://alvinliu0.github.io/projects/HA2G


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています