17日前
リズミカル・ジェスチケイター:階層的ニューラル埋め込みを用いたリズム認識型共話ジェスチャー生成
Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu

要約
話し言葉と連動する自然なジェスチャーの自動合成は、人工的身体化エージェントの構築において、ますます重要かつ挑戦的な課題となっている。従来の手法は主にエンドツーエンド形式でジェスチャーを生成するものであり、発話とジェスチャーの間にある複雑かつ繊細な調和のため、リズムや意味の明確な抽出が困難な問題を抱えていた。本研究では、リズム面および意味面の両方で説得力ある結果を達成する新たな共発話ジェスチャー合成手法を提案する。リズムの面では、発話とジェスチャーの時間的整合性を明示的に保つため、頑健なリズムベースのセグメンテーションパイプラインを導入している。ジェスチャーの意味的側面については、言語理論に基づき、発話と運動の低次元および高次元ニューラル埋め込みを効果的に分離する機構を設計した。高次元埋め込みは意味を表し、低次元埋め込みは微細な変動を捉える。さらに、発話と運動の階層的埋め込みの間に対応関係を構築することで、リズムと意味に配慮したジェスチャー合成を実現した。既存の客観評価指標、新たに提案したリズム評価指標、および人間によるフィードバックを用いた評価により、本手法が最先端のシステムを明確な差で上回っていることが示された。