11日前

ModelScope テキストtoビデオ技術報告

Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, Shiwei Zhang

要約

本論文では、テキストから画像を生成するモデル（Stable Diffusionを含む）を基盤として進化させたテキストから動画を合成するモデル「ModelScopeT2V」を紹介する。ModelScopeT2Vは、フレーム間の一貫性と滑らかな運動遷移を確保するため、空間時間ブロック（spatio-temporal blocks）を導入している。本モデルは学習および推論時に異なるフレーム数に対応可能であり、画像-テキストおよび動画-テキストの両方のデータセットに適応できる。ModelScopeT2Vは、VQGAN、テキストエンコーダ、ノイズ除去用UNetの3つの主要構成要素から構成されており、合計17億パラメータを有しており、そのうち5億パラメータが時間的特性（temporal capabilities）に専用されている。評価指標3項目において、最先端手法を上回る優れた性能を示した。コードおよびオンラインデモは、以下のURLにて公開されている：\url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}。

ModelScope テキストtoビデオ 技術報告

ModelScope テキストtoビデオ技術報告