2ヶ月前
GestureLSM: 潜在ショートカットに基づく空間時間モデルを用いた共発話ジェスチャ生成
Liu, Pinxin ; Song, Luchuan ; Huang, Junhua ; Liu, Haiyang ; Xu, Chenliang

要約
音声信号に基づく全身ジェスチャーの生成は、品質と速度の面で依然として課題が存在しています。既存の手法では、体、脚、手などの異なる身体部位を別々にモデル化するため、それらの間の空間的な相互作用を捉えきることができず、不自然で分断された動きが生じてしまいます。さらに、それらの自己回帰型/拡散型パイプラインは数十ステップの推論が必要なため、生成速度が遅いという問題があります。これらの2つの課題に対処するために、我々はGestureLSM(コスピーチジェスチャージェネレーションにおける空間時間モデリングに基づくフローマッチングアプローチ)を提案します。本手法はi) 空間的および時間的注意を通じてトークン化された身体部位間の相互作用を明示的にモデル化することで、一貫性のある全身ジェスチャーを生成します。ii) フローマッチングを導入し、潜在的速度空間を明示的にモデル化することでより効率的なサンプリングを可能にします。フローマッチングベースラインの非最適な性能を克服するために、訓練中に潜在ショートカット学習とベータ分布タイムスタンプサンプリングを提案し、ジェスチャーシンセシスの品質向上と推論の高速化を目指しました。空間時間モデリングと改善されたフローマッチングフレームワークを組み合わせることで、GestureLSMはBEAT2において最先端の性能を達成し、既存手法に比べて推論時間を大幅に短縮することに成功しました。これにより、デジタルヒューマンやエンボディドエージェントの現実世界での応用可能性が高まっています。プロジェクトページ: https://andypinxinliu.github.io/GestureLSM