Command Palette
Search for a command to run...
ModelScope テキストtoビデオ 技術報告
ModelScope テキストtoビデオ 技術報告
Jiuniu Wang Hangjie Yuan Dayou Chen Yingya Zhang Xiang Wang Shiwei Zhang
概要
本論文では、テキストから画像を生成するモデル(Stable Diffusionを含む)を基盤として進化させたテキストから動画を合成するモデル「ModelScopeT2V」を紹介する。ModelScopeT2Vは、フレーム間の一貫性と滑らかな運動遷移を確保するため、空間時間ブロック(spatio-temporal blocks)を導入している。本モデルは学習および推論時に異なるフレーム数に対応可能であり、画像-テキストおよび動画-テキストの両方のデータセットに適応できる。ModelScopeT2Vは、VQGAN、テキストエンコーダ、ノイズ除去用UNetの3つの主要構成要素から構成されており、合計17億パラメータを有しており、そのうち5億パラメータが時間的特性(temporal capabilities)に専用されている。評価指標3項目において、最先端手法を上回る優れた性能を示した。コードおよびオンラインデモは、以下のURLにて公開されている:\url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}。