HyperAIHyperAI

Command Palette

Search for a command to run...

Console
16時間前

トラッキングからの構造:動画生成のための構造保存型運動の蒸留

Yang Fei George Stoica Jingyuan Liu Qifeng Chen Ranjay Krishna Xiaojuan Wang Benlin Liu

トラッキングからの構造:動画生成のための構造保存型運動の蒸留

要約

現実とは、剛性のある制約と変形可能な構造との間でのダンスである。動画モデルにおいては、忠実性と構造の維持を両立させる運動を生成することを意味する。拡散モデルの進展にもかかわらず、特に人間や動物といった関節構造を持つ可変物体において、構造を保持した現実的な運動を生成することは依然として困難である。これまで、学習データのスケーリングに頼る試みは、物理的に不自然な遷移を解消するには至らなかった。従来のアプローチは、外部の不完全なモデルによって抽出されたノイズを含む運動表現(例:オプティカルフロー、骨格)を条件として用いるにとどまっている。こうした課題に対処するため、本研究では、自己回帰型動画追跡モデル(SAM2)から構造を保持する運動の事前知識(prior)を蒸留(distill)し、双方向型動画拡散モデル(CogVideoX)に統合するアルゴリズムを提案する。本手法により、SAM2VideoXを構築した。このモデルには以下の2つの革新点がある:(1)再帰型モデル(SAM2)からグローバルな構造保持運動の事前知識を抽出する双方向特徴融合モジュール;(2)局所特徴の運動の連携を整えるための「局所グラムフロー損失(Local Gram Flow loss)」。VBenchベンチマークおよび人間実験の結果から、SAM2VideoXは従来のベースラインに対して一貫した性能向上を示した(VBenchで+2.60%、FVDが21–22%低く、人間評価では71.4%の好まれる選択率)。特にVBenchにおいては、95.51%のスコアを達成し、REPA(92.91%)を2.60%上回り、FVDは360.57まで低下させ、それぞれREPAおよびLoRA微調整法に対して21.20%および22.46%の改善を実現した。プロジェクトのウェブサイトは以下のURLからアクセス可能である:https://sam2videox.github.io/

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています