17日前
階層的なクロスモーダル関連学習による共話ジェスチャー生成
Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian, Xinyi Lin, Xiaowei Zhou, Wayne Wu, Bo Dai, Bolei Zhou

要約
発話と整合性のある身体およびジェスチャーの動きを生成することは、仮想アバター作成において長年にわたり取り組まれてきた課題である。従来の研究では、すべての関節の姿勢を同時に生成する包括的なアプローチが用いられることが多かった。しかし、このような単純なパイプラインでは、細粒度な発話連動ジェスチャーを生成することができない。注目すべき点として、発話における階層的な意味構造と人間のジェスチャーにおける階層的構造は、自然に複数の粒度に分けて記述でき、それらを関連付けることが可能である。発話音声と人間のジェスチャーの間に豊富な関係性を活用するため、本研究では階層的音声からジェスチャー生成(Hierarchical Audio-to-Gesture, HA2G)という新しいフレームワークを提案する。HA2Gでは、階層的音声学習器(Hierarchical Audio Learner)が、意味の粒度に応じた音声表現を抽出する。その後、階層的なアプローチで段階的に全身の姿勢を生成する階層的姿勢推定器(Hierarchical Pose Inferer)が動作する。合成ジェスチャーの品質を向上させるために、音声とテキストのアライメントに基づく対照学習戦略を導入した。広範な実験および人間評価の結果、本手法は現実的で自然な発話連動ジェスチャーを生成でき、従来手法と比較して明確な優位性を示した。プロジェクトページ:https://alvinliu0.github.io/projects/HA2G