Command Palette
Search for a command to run...
自己回帰敵対的後学習によるリアルタイムインタラクティブビデオ生成
自己回帰敵対的後学習によるリアルタイムインタラクティブビデオ生成
Shanchuan Lin Ceyuan Yang Hao He Jianwen Jiang Yuxi Ren Xin Xia Yang Zhao Xuefeng Xiao Lu Jiang
概要
既存の大規模ビデオ生成モデルは計算量が多大であるため、リアルタイムやインタラクティブなアプリケーションでの採用が妨げられています。本研究では、事前学習済みの潜在ビデオ拡散モデルをリアルタイム・インタラクティブなビデオジェネレーターに変換するための自己回帰敵対的後学習(Autoregressive Adversarial Post-Training: AAPT)を提案します。当モデルは単一のニューラル関数評価(1NFE)を使用して、一度に1つの潜在フレームを自己回帰的に生成します。これにより、モデルは結果をユーザーにリアルタイムでストリーミングし、次の潜在フレームを生成するためにインタラクティブなレスポンスを受け取ることができます。既存の手法とは異なり、当方法では敵対的訓練を自己回帰生成の効果的なパラダイムとして探索しています。これにより、KVキャッシュを完全に活用しながら一歩生成に適した効率的なアーキテクチャ設計が可能となり、また長時間ビデオ生成時の誤差蓄積を低減するのに効果的な教師強制方式でのモデル訓練も可能となります。実験結果から、当8Bモデルは単一のH100上で736x416解像度で24fpsのリアルタイムストリーミングビデオ生成を達成しており、最大1分間(1440フレーム)まで8xH100上で1280x720解像度での生成も可能です。詳細については、研究ウェブサイトをご覧ください:https://seaweed-apt.com/2