11日前
Show-1:テキストから動画生成に向けたピクセルと潜在拡散モデルの統合
Zhang, David Junhao, Wu, Jay Zhangjie, Liu, Jia-Wei, Zhao, Rui, Ran, Lingmin, Gu, Yuchao, Gao, Difei, Shou, Mike Zheng

要約
大規模な事前学習済みテキストから動画への変換Diffusionモデル(VDM)分野において、顕著な進展が達成されている。しかし、従来の手法は、計算コストが非常に高いピクセルベースのVDMに依存するものや、テキストと動画の正確な対応(text-video alignment)を維持しづらい潜在空間ベースのVDMに依存するものであった。本論文では、初めてピクセルベースと潜在空間ベースのVDMを統合したハイブリッドモデル「Show-1」を提案する。本モデルは、まずピクセルベースのVDMを用いて、テキストと動画の関連性が強い低解像度動画を生成する。その後、新たなエキスパート変換手法を提案し、潜在空間ベースのVDMを用いて低解像度動画を高解像度にアップサンプリングする。このプロセスにより、低解像度動画に生じる可能性のあるアーティファクトや歪みを除去することが可能となる。潜在空間ベースのVDMと比較して、Show-1は正確なテキスト-動画対応を維持しつつ高品質な動画を生成できる。一方、ピクセルベースのVDMと比較して、Show-1ははるかに効率的であり、推論時のGPUメモリ使用量は72GBに対して15GBにまで削減される。さらに、本モデルは時間的アテンション層の簡単な微調整により、モーションカスタマイズやビデオスタイル化の応用に容易に適応可能である。Show-1は標準的な動画生成ベンチマークにおいて、最先端の性能を達成した。本研究のコードおよびモデル重みは、https://github.com/showlab/Show-1 にて公開されている。