Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

要約
現実とは、剛性のある制約と変形可能な構造との間でのダンスである。動画モデルにおいては、忠実性と構造の維持を両立させる運動を生成することを意味する。拡散モデルの進展にもかかわらず、特に人間や動物といった関節構造を持つ可変物体において、構造を保持した現実的な運動を生成することは依然として困難である。これまで、学習データのスケーリングに頼る試みは、物理的に不自然な遷移を解消するには至らなかった。従来のアプローチは、外部の不完全なモデルによって抽出されたノイズを含む運動表現(例:オプティカルフロー、骨格)を条件として用いるにとどまっている。こうした課題に対処するため、本研究では、自己回帰型動画追跡モデル(SAM2)から構造を保持する運動の事前知識(prior)を蒸留(distill)し、双方向型動画拡散モデル(CogVideoX)に統合するアルゴリズムを提案する。本手法により、SAM2VideoXを構築した。このモデルには以下の2つの革新点がある:(1)再帰型モデル(SAM2)からグローバルな構造保持運動の事前知識を抽出する双方向特徴融合モジュール;(2)局所特徴の運動の連携を整えるための「局所グラムフロー損失(Local Gram Flow loss)」。VBenchベンチマークおよび人間実験の結果から、SAM2VideoXは従来のベースラインに対して一貫した性能向上を示した(VBenchで+2.60%、FVDが21–22%低く、人間評価では71.4%の好まれる選択率)。特にVBenchにおいては、95.51%のスコアを達成し、REPA(92.91%)を2.60%上回り、FVDは360.57まで低下させ、それぞれREPAおよびLoRA微調整法に対して21.20%および22.46%の改善を実現した。プロジェクトのウェブサイトは以下のURLからアクセス可能である:https://sam2videox.github.io/。