INR-V:動画ベースの生成タスクのための連続的表現空間

動画生成は、時間的に一貫性のある画像フレームを逐次生成することで実現される複雑なタスクであり、これにより動画の表現力は個々のフレームに対する画像ベースの操作に限定され、時間的に整合性のある軌道を画像空間内で得るためのネットワーク設計が不可欠となる。本研究では、動画ベースの生成タスクに適した連続的な表現空間を学習する「INR-V」という動画表現ネットワークを提案する。INR-Vは、implicit neural representations(INRs)を用いて動画をパラメータ化しており、多層パーセプトロンを介して動画の各ピクセル位置に対応するRGB値を予測する。このINRは、複数の動画インスタンスのニューラル表現上で訓練されたハイパーネット(メタネットワーク)によって生成される。その後、このメタネットワークをサンプリングすることで、多様な新しい動画の生成が可能となり、さまざまな下流の動画生成タスクを実現できる。興味深いことに、条件付き正則化と段階的な重み初期化がINR-Vの性能向上に極めて重要であることが明らかになった。INR-Vが学習する表現空間は従来の画像空間よりもはるかに表現力が高く、既存の手法では実現不可能な多くの興味深い特性を示す。例えば、既知の動画インスタンスの間で滑らかな中間動画(顔動画における中間的なアイデンティティ、表情、ポーズなど)を補間可能であり、欠損した部分を補完して時間的に整合性のある完全な動画を復元することも可能である。本研究では、INR-Vが学習する表現空間を、動画補間、新規動画生成、動画逆問題、動画補填といった多様な生成タスクにおいて、既存のベースラインと比較して評価した。その結果、INR-Vはこれらのタスクのいくつかにおいて顕著に優れた性能を示し、提案する表現空間の潜在能力を明確に示している。