7日前
Phenaki:オープンドメインのテキスト記述からの可変長動画生成
Ruben Villegas, Mohammad Babaeizadeh, Pieter-Jan Kindermans, Hernan Moraldo, Han Zhang, Mohammad Taghi Saffar, Santiago Castro, Julius Kunze, Dumitru Erhan

要約
本稿では、テキストプロンプトの系列を入力として、現実的な動画合成が可能な「Phenaki」モデルを紹介する。テキストから動画を生成することは、計算コストの高さ、高品質なテキスト-動画データの限界、および動画長の可変性という課題により、特に困難である。これらの課題に対処するため、動画を離散トークンの少数に圧縮する新たな動画表現学習モデルを提案する。このトークナイザーは時間方向の因果的アテンション(causal attention)を用いることで、長さが可変な動画に対応可能である。テキストから動画トークンを生成する際には、事前に計算されたテキストトークンを条件として用いた双方向マスク付きTransformerを採用する。生成された動画トークンは、その後デトークナイズ処理により実際の動画に復元される。データ不足の問題に対処するため、大規模な画像-テキストペアのコーパスと少量の動画-テキスト例を共同学習させることで、動画データセットに含まれる内容を超えた汎化性能が得られることを実証する。従来の動画生成手法と比較して、Phenakiは、オープンドメインにおいて任意の長さの動画を、プロンプトの系列(すなわち時間的に変化するテキストや物語)に条件づけて生成可能である。筆者の知る限り、本研究は、時間的に変化するプロンプトから動画を生成するという課題に初めて取り組んだものである。さらに、フレーム単位のベースラインと比較して、提案する動画エンコーダ-デコーダは1動画あたりの処理トークン数を削減しつつ、空間的・時間的整合性の高い出力を実現している。