
最近のビデオ生成モデルの進歩により、テキストプロンプトから高品質な短いビデオを生成することが可能になりました。しかし、これらのモデルをより長いビデオに拡張することは依然として大きな課題であり、主に時間的一貫性と視覚的な忠実度の低下が原因となっています。我々の初期観察では、短いビデオ生成モデルを長時間シーケンスに単純に適用すると、品質が著しく低下することが示されています。さらに分析した結果、ビデオの長さが増すにつれて高周波成分がますます歪むという系統的な傾向が明らかになりました。この問題を「高周波歪み」と呼びます。これを解決するために、我々は FreeLong という訓練不要のフレームワークを提案します。FreeLong は、全ビデオを通じて包括的な意味論を捉えるグローバル低周波成分と、短い時間窓から抽出された細かい詳細を保つ局所高周波成分を組み合わせることで、長時間ビデオ特徴量の周波数分布をバランスよく保つことを目指しています。これに基づいて、FreeLong++ は FreeLong の二重ブランチ設計を多層アーキテクチャに拡張し、異なる時間スケールで動作する複数の注意ブランチを持っています。グローバルから局所まで複数のウィンドウサイズを使用することで、FreeLong++ は低周波から高周波までのマルチバンド周波数融合を可能とし、長いビデオシーケンスにおいて意味論的一貫性と微細な動きのダイナミクス双方を確保します。追加の訓練なしで、FreeLong++ は既存のビデオ生成モデル(例:Wan2.1 および LTX-Video)に組み込むことができ、大幅に改善された時間的一貫性と視覚的な忠実度を持つ長いビデオを生成できます。我々は実験によって、本手法が長いビデオ生成タスク(例:ネイティブ長さの4倍や8倍)において従来の方法よりも優れていることを示しました。また、滑らかなシーン遷移を持つ一貫性のあるマルチプロンプトビデオ生成もサポートしており、長時間深度や姿勢シーケンスを使用した制御可能なビデオ生成も可能となっています。