9日前

CCVS:コンテキスト認識型制御可能動画合成

Guillaume Le Moing, Jean Ponce, Cordelia Schmid
CCVS:コンテキスト認識型制御可能動画合成
要約

本発表では、既存の動画クリップから新しい動画クリップを合成するための自己教師学習アプローチを紹介する。本手法は、空間分解能および現実性の向上を図るための複数の新規な要素を導入している。合成プロセスは、時間的連続性を確保するための文脈情報に条件付けられ、詳細な制御を可能にする付加的情報(ancillary information)を用いる。予測モデルは、潜在空間(latent space)における自動回帰性(autoregressive)と画像空間における自動回帰性の両方を備えており、前者は将来フレームの予測に、後者は文脈情報の更新に使用される。さらに、学習可能な光流(optical flow)モジュールを用いて、空間時間的一貫性を強制する仕組みも採用している。自動符号化器(autoencoder)に対して、外観領域および時間領域における敵対的学習(adversarial training)を適用することで、出力の現実性がさらに向上する。潜在空間における将来フレーム予測を担うトランスフォーマー(transformer)とエンコーダの間に挿入された量子化器(quantizer)および、トランスフォーマーとデコーダの間に挿入された逆量子化器(inverse quantizer)により、合成プロセスの制御に用いるマルチモーダルな付加的情報(例:数フレームのサンプル、音声トラック、画像空間内の軌道など)をシンプルなメカニズムで扱える柔軟性が追加される。また、将来の不確実性という本質的特性を考慮し、複数の予測を可能にする仕組みも提供している。提案手法の実装による実験結果は、複数のタスクおよび標準ベンチマークにおいて、優れた定性的・定量的性能を示している。

CCVS:コンテキスト認識型制御可能動画合成 | 最新論文 | HyperAI超神経