Command Palette
Search for a command to run...
Lumos-1: 統一モデルの視点から自己回帰ビデオ生成について
Lumos-1: 統一モデルの視点から自己回帰ビデオ生成について
概要
自己回帰型の大規模言語モデル(LLMs)は、多様な言語タスクを統一し、自己回帰型ビデオ生成の初期的な取り組みを促進しています。既存の自己回帰型ビデオ生成器は、標準的なLLMアーキテクチャから逸脱しているか、大容量の外部テキストエンコーダに依存しているか、または次のトークンをデコードする際に許容できない遅延が発生します。本論文では、最小限のアーキテクチャ変更でLLMアーキテクチャを維持する自己回帰型ビデオ生成器Lumos-1を紹介します。LLMに空間時間相関性を取り入れるためには、3D RoPE(Rotary Position Embedding)の導入効果を確認し、その非対称な周波数スペクトル範囲を診断しました。これにより、元のテキストRoPEを保ちつつ、包括的な周波数スペクトルとスケーリングされた3D位置情報を提供してマルチモーダル空間時間データをモデリングするMM-RoPEというRoPEスキームを提案します。さらに、Lumos-1はフレーム内の双方向性とフレーム間の一方向性に従うトークン依存戦略を採用しています。この依存戦略に基づいて、空間情報の冗長性によって引き起こされるフレームごとの損失不均衡の問題を特定し、それを解決するために自己回帰離散拡散強制(AR-DF)を提案します。AR-DFは訓練中に時間方向のチューブマスキングを行い、推論時に互換性のあるマスキングポリシーを使用することで品質低下を回避します。メモリ効率の高い訓練手法を使用することで、Lumos-1は48台のGPUのみで事前学習されましたが、GenEvalではEMU3と同等の性能を達成し、VBench-I2VではCOSMOS-Video2Worldと同等の性能を示し、VBench-T2VではOpenSoraPlanと同等の性能を達成しました。コードとモデルはhttps://github.com/alibaba-damo-academy/Lumosで公開されています。