11日前
VideoCrafter1:高品質な動画生成のためのオープンディフュージョンモデル
Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan

要約
動画生成は、学術界および産業界の両方でますます注目を集めている分野である。現在、商業用ツールは現実味のある動画を生成できるものの、研究者やエンジニアが利用できるオープンソースモデルは限られている。本研究では、高品質な動画生成を実現する2つの拡散モデル、すなわちテキストから動画を生成するテキスト・トゥ・ビデオ(T2V)モデルと、画像を入力として動画を生成するイメージ・トゥ・ビデオ(I2V)モデルを提案する。T2Vモデルは、入力されたテキストに基づいて動画を合成するのに対し、I2Vモデルは追加で画像入力を用いる。提案するT2Vモデルは、解像度1024×576のリアルで映画品質の動画を生成可能であり、品質面で他のオープンソースT2Vモデルを上回っている。一方、I2Vモデルは、提供された参照画像の内容を厳密に再現するように設計されており、その内容、構造、スタイルを保持する。このモデルは、コンテンツの保持を前提として、入力画像を動画クリップに変換可能な、世界初のオープンソースI2V基盤モデルである。本研究で提示するこれらのオープンソース動画生成モデルが、コミュニティ内の技術進展に大きく貢献すると確信している。