16日前

GODIVA:自然な記述からオープンドメイン動画を生成する

Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang, Guillermo Sapiro, Nan Duan
GODIVA:自然な記述からオープンドメイン動画を生成する
要約

テキストから動画を生成することは、学習に高い計算リソースを要し、評価において無限に近い可能な出力が存在するため、非常に困難なタスクである。従来の研究では、単純または小規模なデータセット上で実験が行われることが多く、その一般化能力は限定的である。本研究では、3次元スパースアテンション機構を用いて自己回帰的にテキストから動画を生成できる、オープンドメインのテキスト-to-動画事前学習モデル「GODIVA」を提案する。我々のモデルは、13600万以上のテキスト-動画ペアを含む大規模なデータセット「Howto100M」上で事前学習を行った。実験の結果、GODIVAは下流の動画生成タスクにおいて微調整(fine-tuning)が可能であるだけでなく、未観測のテキストに対しても優れたゼロショット(zero-shot)能力を有することが示された。また、動画生成品質を自動評価するための新しい指標「相対一致度(Relative Matching, RM)」を提案した。今後の課題として、いくつかの未解決の問題を列挙し、それらについて議論した。

GODIVA:自然な記述からオープンドメイン動画を生成する | 最新論文 | HyperAI超神経