17日前
文脈的ジェスチャー:文脈に配慮したジェスチャー表現を用いた共話ジェスチャー動画生成
Pinxin Liu, Pengfei Zhang, Hyeongwoo Kim, Pablo Garrido, Ari Sharpio, Kyle Olszewski

要約
話と併せて行うジェスチャー生成は、話と同期したジェスチャーを用いてリアリスティックなアバターの作成や、人間とコンピュータの相互作用の質を向上させる上で極めて重要である。近年の進展にもかかわらず、既存の手法は音声からリズム的または意味的なトリガーを正確に抽出し、文脈に応じたジェスチャーのパターンを生成し、ピクセルレベルのリアリズムを達成する点で依然として課題を抱えている。これらの課題に対処するため、本研究では「Contextual Gesture」というフレームワークを提案する。このフレームワークは、以下の3つの革新的な構成要素により、話と併せたジェスチャー動画生成を飛躍的に改善するものである:(1)時系列的な音声-ジェスチャー同期機構により、2つのモダリティを時間的に整合させる、(2)文脈を反映したジェスチャーのトークン化機構で、音声の文脈情報を知識蒸留(distillation)を用いて運動パターン表現に統合する、(3)構造を意識した精緻化モジュールにより、エッジ接続を活用してジェスチャーのキーポイントを連結し、動画生成の質を向上させる。広範な実験の結果、Contextual Gestureはリアリスティックで音声に同期したジェスチャー動画を生成するだけでなく、長時間のシーケンス生成や動画ジェスチャーの編集アプリケーションにも対応できることを示している。図1にその成果を示す。プロジェクトページ:https://andypinxinliu.github.io/Contextual-Gesture/