16日前

時空間拡散におけるスワップアテンションによるテキストから動画生成

Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
時空間拡散におけるスワップアテンションによるテキストから動画生成
要約

AI生成コンテンツ(AIGC)の爆発的な普及に伴い、動画生成技術が近年注目を集めている。テキスト指示に基づいた動画生成は、空間と時間の複雑な関係をモデル化する難しさや、大規模なテキスト-動画ペアデータの不足といった重大な課題を抱えている。既存のテキスト-動画データセットは、コンテンツの質やスケールに限界があるか、オープンソースでないため、研究や利用が困難である。モデル設計の観点からは、従来のアプローチでは、事前学習済みのテキストから画像を生成するモデルに、時系列方向の1次元畳み込みやアテンションモジュールを追加することで動画生成を実現している。しかし、これらの手法は空間と時間の同時モデリングの重要性を無視しており、必然的に時間的な歪みやテキストと動画の不整合を引き起こす。本論文では、空間的認識と時間的認識の相互作用を強化する新たなアプローチを提案する。特に、3Dウィンドウ内で空間ブロックと時間ブロックの「クエリ」役割を交互に切り替えるスワップドクロスアテンション機構を採用し、両者の相互強化を実現している。さらに、高品質な動画生成におけるモデルの潜在能力を最大限に引き出し、分野の発展を促進するため、大規模かつオープンソースの動画データセット「HD-VG-130M」を構築した。このデータセットは、オープンドメインから収集した1億3000万件のテキスト-動画ペアを含み、高解像度、ワイドスクリーン、および水増しマークのないキャラクターを確保している。また、より洗練された小規模なサブセットも用意されており、データ品質の向上により、モデルの性能向上を支援している。実験による定量的・定性的な評価結果から、本手法がフレーム単位の品質、時間的相関性、テキスト-動画の整合性において、明確な優位性を示していることが確認された。

時空間拡散におけるスワップアテンションによるテキストから動画生成 | 最新論文 | HyperAI超神経