Command Palette
Search for a command to run...

要約
人間の画像アニメーションにおいて、最初のフレームのアイデンティティを保持しつつ、正確な運動制御を確保することは、根本的な課題である。現在の主流である参照画像から動画への変換(Reference-to-Video, R2V)パラダイムにおける「画像から運動への結合(Image-to-Motion Binding)」プロセスは、現実世界の応用において一般的に見られる空間時間的不整合を無視しており、アイデンティティのずれや視覚的なアーティファクトといった失敗を引き起こす。本研究では、画像から動画への変換(Image-to-Video, I2V)パラダイムに基づくフレームワーク「SteadyDancer」を提案する。この手法は、アニメーションの調和性と一貫性を実現し、初めて最初のフレームのアイデンティティ保持を堅牢に保証するものである。まず、二つの対立する条件を調和させるための「条件再整合機構(Condition-Reconciliation Mechanism)」を提案し、忠実度を損なうことなく高精度な制御を可能にした。次に、「相補的ポーズ変調モジュール(Synergistic Pose Modulation Modules)」を設計し、参照画像と高い互換性を持つ適応的かつ一貫性のあるポーズ表現を生成した。さらに、「段階的分離目的学習パイプライン(Staged Decoupled-Objective Training Pipeline)」を採用し、運動の忠実度、視覚的品質、時間的一貫性の順に階層的にモデルを最適化した。実験の結果、SteadyDancerは外観の忠実度と運動制御の両面で最先端の性能を達成するとともに、同等の手法と比較して著しく少ない学習リソースで実現可能であることが示された。