11日前
ModelScope テキストtoビデオ 技術報告
Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, Shiwei Zhang

要約
本論文では、テキストから画像を生成するモデル(Stable Diffusionを含む)を基盤として進化させたテキストから動画を合成するモデル「ModelScopeT2V」を紹介する。ModelScopeT2Vは、フレーム間の一貫性と滑らかな運動遷移を確保するため、空間時間ブロック(spatio-temporal blocks)を導入している。本モデルは学習および推論時に異なるフレーム数に対応可能であり、画像-テキストおよび動画-テキストの両方のデータセットに適応できる。ModelScopeT2Vは、VQGAN、テキストエンコーダ、ノイズ除去用UNetの3つの主要構成要素から構成されており、合計17億パラメータを有しており、そのうち5億パラメータが時間的特性(temporal capabilities)に専用されている。評価指標3項目において、最先端手法を上回る優れた性能を示した。コードおよびオンラインデモは、以下のURLにて公開されている:\url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}。