Command Palette
Search for a command to run...

要約
本稿では、リアルタイムかつインタラクティブな長時間動画生成を実現するフレーム単位の自己回帰(AR)フレームワーク「LongLive」を提案する。長時間動画生成は、効率性と品質の両面で課題を抱えている。拡散モデルや拡散強制(Diffusion-Forcing)モデルは高品質な動画生成が可能であるが、双方向アテンションのため推論効率が著しく低下するという問題がある。一方、因果アテンションに基づくARモデルはキーベクトル(KV)キャッシュを活用することで高速な推論を実現できるが、長時間動画の学習におけるメモリ制約により、品質が低下しやすい。さらに、静的なプロンプトに基づく生成にとどまらず、プロンプトのストリーミング入力などのインタラクティブ機能は、動的なコンテンツ制作において不可欠であり、ユーザーがリアルタイムで物語の展開を導くことを可能にする。このようなインタラクティブ性は、特にプロンプトの切り替え時に視覚的一貫性と意味的整合性を維持するという点で、極めて高い複雑性を伴う。これらの課題に対処するため、LongLiveは因果的かつフレーム単位のARアーキテクチャを採用し、以下の3つの鍵となる設計を統合している。第一に、新規プロンプトに応じてキャッシュ状態を再更新する「KV再キャッシュ機構」を導入することで、プロンプト切り替え時に滑らかかつ一貫した遷移を実現する。第二に、「ストリーミング長期間チューニング」により、長時間動画の学習を可能にするとともに、学習と推論の環境を一致させ(train-long-test-long)、長期的整合性を確保する。第三に、「短い窓アテンション」と「フレーム単位のアテンションシンク(frame sink)」を組み合わせ、長距離依存関係を維持しつつ、生成速度を向上させる。これらの設計により、LongLiveは13億パラメータの短時間クリップモデルを、わずか32 GPU日間の微調整で、1分間の動画生成にまで拡張可能である。推論時には、単一のNVIDIA H100 GPU上で20.7 FPSを維持し、VBenchベンチマークにおいて短時間および長時間動画の両方で優れた性能を達成している。また、単一のH100 GPU上で最大240秒までの動画生成をサポートしており、INT8量子化推論も実現可能であり、品質の低下はほとんどない。