阿里巴巴グループが開発した「Lumos-1」:効率的な空間時間モデリングを実現する統一型自動回帰ビデオジェネレーター
阿里巴巴グループの DAMOアカデミー、済南ラボ、浙江大学の研究チームは、Lumos-1という新しい統合モデルを発表しました。Lumos-1は大規模言語モデル(LLM)のアーキテクチャを維持しながら、動画の逐次生成を行う新提案です。このモデルは、動画データの固有の時空依存関係を効率的に学習・モデル化することで、従来の方法よりも高性能かつ効率的な動画生成を可能にします。 Lumos-1では、Multi-Modal Rotary Position Embeddings (MM-RoPE)と Autoregressive Discrete Diffusion Forcing (AR-DF)の2つの主要な技術革新が導入されています。MM-RoPEは、空間と時間の両次元において周波数スペクトルをバランスよく割り当てることで、動画特有の三次元構造を適切に捉えます。これにより、従来の3D RoPEによる位置-Encodingの曖昧さや詳細の損失を軽減します。一方、AR-DFはフレームごとのテンポラルチューブマスキングを採用することで、時空的な学習バランスとフレーム間の一貫性を確保します。これにより、学習の偏りが少なく、一連の動画シーケンスにおけるコヒーレンシーを保つことができます。 Lumos-1は6000万枚の画像と1000万本の動画データ、48のGPUを用いてスクラッチから訓練されました。この訓練方法は、大規模データセットを扱う効率的なメモリ使用法を示しています。性能評価では、各ベンチマーク(GenEval、VBench-I2V、VBench-T2V)での評価で最上位のモデルと同等の結果を達成しました。これは、競争力のある性能を維持しながら、軽量な訓練方法で実現できたことを示しています。Lumos-1は、テキストから動画への変換、画像から動 swayを、テキストから画像への生成もサポートしており、マルチモーダルな生成タスクに対応しています。 Lumos-1の発表は、動画生成における時空特性のモデリングに焦点を当てた課題の解決と、効率性と高性能の両立を示す重要な進歩を代表しています。この研究成果によって、効率的で高品質な動画生成モデルの次の潮流が期待されます。 今回の研究を通じて、阿里巴巴は自身の研究開発力と技術的能力を再確認しています。また、Lumos-1が動画生成の新しい基準を設定したことで、業界全体の進展が加速すると見込まれいます。 Lumos-1の具体的な研究内容やソースコードについては、論文とGitHubページにアクセスできます。このプロジェクトへの貢献者には全研究者の功績が認められています。 Lumos-1の登場によって、マルチモーダルな動画生成において、さらなる研究の活性化が期待されます。阿里巴巴グループは、AI・機械学習分野での革新的な研究を継続して進めている中国を代表するテック企業です。