Command Palette
Search for a command to run...
Junyoung Seo Rodrigo Mira Alexandros Haliassos Stella Bounareli Honglie Chen Linh Tran Seungryong Kim Zoe Landgraf Jie Shen

要約
音声駆動型人間アニメーションモデルは、時系列の自己回帰生成において、キャラクターのアイデンティティが時間とともに徐々に失われる「アイデンティティドリフト」の問題に直面することが多い。この問題を解決する一つのアプローチとして、生成の過程で中間的なキーフレームを生成し、劣化を防ぐ方法が提案されている。しかし、この手法は追加のキーフレーム生成ステージを必要とし、自然な運動ダイナミクスを制限する可能性がある。本研究では、現在の生成ウィンドウ内ではなく、未来の時刻におけるキーフレームを活用する「Lookahead Anchoring(先行アンカリング)」を提案する。これにより、キーフレームは固定された境界から、方向性を持つ目安(ビーコン)に変化する。モデルは、即時の音声入力に応じながら、未来のアンカーポイントを継続的に追いかけることで、一貫したアイデンティティを維持する。また、このアプローチは「自己キーフレーム化(self-keyframing)」を可能にし、参照画像を将来のターゲットとして用いることで、キーフレームの生成を完全に不要にする。我々は、時系列の先行距離が表現力と一貫性のバランスを自然に制御することを発見した。距離が大きいほど運動の自由度が高まり、逆に距離が小さいほどアイデンティティの保持が強化される。本手法を3つの最新の人体アニメーションモデルに適用した結果、口元の同期性、アイデンティティの保持、視覚的品質の面で優れた性能を達成し、複数の異なるアーキテクチャにおいても時間的条件付けの改善が確認された。動画結果は以下のリンクから確認可能である:https://lookahead-anchoring.github.io