
要約
インタラクティブで動的な世界をシミュレートするためには、効率的なストリーミング動画生成が不可欠である。従来の手法は、スライディングウィンドウアテンションを用いて、少数ステップの動画拡散モデルを蒸留(distill)するが、初期フレームを「シンクトークン(sink token)」として用いることで、アテンション性能を維持し、誤差の蓄積を抑える。しかし、このアプローチでは、動画フレームがこれらの静的トークンに過度に依存するようになり、初期フレームのコピーが発生し、運動のダイナミクスが損なわれるという問題がある。これを解決するために、本研究では「リワードフォースティング(Reward Forcing)」と呼ばれる新しいフレームワークを提案する。本フレームワークは、以下の2つの鍵となる設計を採用している。第一に、初期フレームから初期化された固定サイズのトークンを維持しつつ、スライディングウィンドウから除外されるトークンを指数移動平均(EMA)により融合することで、継続的に更新する「EMA-Sink」を提案する。追加の計算コストを伴わず、EMA-Sinkトークンは長期的な文脈と最新の動的変化の両方を捉えることができ、初期フレームのコピーを防ぎつつ、長期間にわたる一貫性を維持する。第二に、教師モデルから運動ダイナミクスをより効果的に蒸留するために、新たな「報酬付き分布マッチング蒸留(Rewarded Distribution Matching Distillation: Re-DMD)」を提案する。従来の分布マッチングはすべてのトレーニングサンプルを同等に扱うため、動的なコンテンツを優先的に学習する能力が制限されていた。一方、Re-DMDは視覚言語モデル(vision-language model)により評価された動的な程度が高いサンプルを優先することで、モデルの出力分布を高報酬領域に偏向させる。これにより、データ忠実性を維持しつつ、運動品質を大幅に向上させることが可能となる。定量的および定性的な実験を通じて、Reward Forcingが標準ベンチマーク上で最先端の性能を達成し、単一のH100 GPU上で23.1 FPSの高品質なストリーミング動画生成を実現できることを示した。