概要

本研究の目的は、事前学習済みのテキストto画像（T2I）モデルを基盤として、高品質なテキストto動画（T2V）生成モデルを学習することである。視覚的に現実的かつ時間的に整合性のある動画を同時に生成しつつ、事前学習済みT2Iモデルが持つ強力な創造的生成能力を維持するという課題は、極めて望ましい一方で、困難な挑戦である。この課題に対応するため、我々は、段階的な動画潜在拡散モデル（latent diffusion models）を用いる統合型動画生成フレームワーク「LaVie」を提案する。LaVieは、ベースT2Vモデル、時間的補間モデル、動画スーパーレゾリューションモデルから構成される。本研究の主な知見は以下の2点である：1）単純な時間的自己注意機構（temporal self-attentions）と回転位置符号化（rotary positional encoding）の組み合わせが、動画データに内在する時間的相関を適切に捉えることができるという洞察を得た。2）さらに、画像と動画の共同微調整（joint image-video fine-tuning）プロセスが、高品質かつ創造的な出力を得る上で中心的な役割を果たすことを実証した。LaVieの性能向上のため、質、多様性、美的価値を重視した2500万件のテキスト-動画ペアからなる包括的かつ多様な動画データセット「Vimeo25M」を新たに構築した。広範な実験により、LaVieが定量的・定性的に最先端の性能を達成することが示された。さらに、事前学習済みLaVieモデルの汎用性が、長時間動画生成やパーソナライズド動画合成といった多様な応用においても有効であることを示した。

ソースPDF