
暗黙的ニューラル表現は、動画をニューラルネットワークとして保存する手法であり、動画圧縮やノイズ除去などの様々な視覚タスクにおいて優れた性能を発揮している。フレームインデックスまたは位置インデックスを入力として、従来の暗黙的表現(NeRV、E-NeRVなど)は、固定かつコンテンツに依存しない埋め込み表現から動画を再構成する。このような埋め込み表現は、動画補間における回帰能力および内部一般化能力を大きく制限している。本論文では、学習可能なエンコーダによってコンテンツに応じた埋め込み表現を生成する、動画用ハイブリッドニューラル表現(HNeRV)を提案する。このコンテンツに応じた埋め込み表現をデコーダの入力として用いることで、より柔軟な表現が可能となる。さらに、入力埋め込みに加えて、HNeRVブロックを導入し、ネットワーク全体にわたってモデルパラメータが均等に分布するように設計することで、出力に近い高層部(高層)に高解像度のコンテンツや動画の詳細をより効果的に記憶させる能力を付与している。コンテンツに応じた埋め込み表現と再設計されたアーキテクチャにより、HNeRVは動画回帰タスクにおいて、再構成品質(PSNR +4.7)および収束速度(16倍高速)という点で従来の暗黙的手法を上回り、内部一般化能力も優れている。シンプルかつ効率的な動画表現として、HNeRVは従来のコーデック(H.264、H.265)および学習ベースの圧縮手法と比較して、デコード速度、柔軟性、展開性の面で優れた利点を示している。最後に、HNeRVが動画圧縮や動画補間(video inpainting)といった下流タスクにおける有効性についても検証した。プロジェクトページは https://haochen-rye.github.io/HNeRV、コードは https://github.com/haochen-rye/HNeRV にて公開している。