16日前

テキストフリー動画を用いたテキストから動画生成のスケーリングアップのためのレシピ

Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
テキストフリー動画を用いたテキストから動画生成のスケーリングアップのためのレシピ
要約

過去1年間、テキストから動画を生成する拡散モデル(diffusion-based text-to-video generation)は著しい進展を遂げたが、依然としてテキストから画像を生成する技術に比べて遅れをとっている。その主な理由の一つは、公開可能なデータの規模が限られていることである(例:WebVid10Mにおける1000万件の動画-テキストペアに対して、LAIONでは50億件の画像-テキストペアが存在)。これは動画のキャプション作成にかかるコストが非常に高いことに起因する。一方で、YouTubeなどの動画プラットフォームからラベルのない動画クリップを収集するほうがはるかに容易である。このような背景から、我々はテキストを含まない動画を直接学習可能な新たなテキストから動画生成フレームワーク「TF-T2V」を提案する。このアプローチの根拠は、「テキストデコード」と「時系列モデリング」のプロセスを分離することにある。そのため、コンテンツを扱うブランチと運動情報を扱うブランチを設け、両者を重み共有の形で共同最適化する。このパイプラインに基づき、テキストなし動画のみで構成されるトレーニングデータセット(動画のみのWebVid10M)の規模を倍増させた場合の効果を検証したところ、性能の向上が確認された(FID:9.67 → 8.19、FVD:484 → 441)。これにより、本手法のスケーラビリティが示された。さらに、その後一部のテキストラベルを再導入して学習を継続した結果、持続的な性能向上(FID:8.19 → 7.64、FVD:441 → 366)が得られたことも明らかになった。最後に、本研究のアイデアが、ネイティブなテキストから動画生成およびコンポジショナルな動画合成という両方のパラダイムにおいても有効性と汎用性を示した。コードとモデルは、https://tf-t2v.github.io/ にて公開される予定である。

テキストフリー動画を用いたテキストから動画生成のスケーリングアップのためのレシピ | 最新論文 | HyperAI超神経