16日前

VideoCrafter2:高品質なビデオディフュージョンモデルにおけるデータ制約の克服

Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
VideoCrafter2:高品質なビデオディフュージョンモデルにおけるデータ制約の克服
要約

テキストから動画生成(text-to-video generation)は、与えられたプロンプトに基づいて動画を生成することを目的としています。近年、いくつかの商用動画生成モデルが、最小限のノイズ、優れた細部表現、および高い美術的評価を得る可能性を備えるようになってきました。しかし、これらのモデルはコミュニティにアクセスできない大規模かつ高品質でフィルタリングされた動画データに依存しており、その利用が制限されています。一方で、多くの既存の研究では、低品質なWebVid-10Mデータセットを用いてモデルを学習していますが、その結果、モデルがWebVid-10Mに最適化されてしまうため、高品質な動画生成が困難になっています。本研究では、Stable Diffusionを基盤とする動画モデルの学習スキームを拡張し、低品質な動画と合成された高品質な画像を活用して、高品質な動画生成モデルを構築する可能性を検討します。まず、動画モデルにおける空間モジュールと時系列モジュールの関係性と、低品質な動画に対する分布シフト(distribution shift)の関係を分析します。その結果、すべてのモジュールを完全に訓練すると、時系列モジュールのみを訓練する場合よりも空間モジュールと時系列モジュールの結合が強くなることが明らかになりました。この強い結合性を活かし、高品質な画像を用いて空間モジュールのみをファインチューニングすることで、動きの劣化を伴わず分布を高品質な領域にシフトさせることができ、汎用的な高品質動画生成モデルの構築が可能になりました。提案手法の優位性を評価する実験を行った結果、特に画像品質、動きの自然さ、コンセプトの整合性において顕著な性能向上が確認されました。

VideoCrafter2:高品質なビデオディフュージョンモデルにおけるデータ制約の克服 | 最新論文 | HyperAI超神経