6ヶ月前

概要

我々は、動画をニューラルネットワーク内で符号化する新しいニューラル表現（NeRV）を提案する。従来の方法が動画をフレームの連続として扱うのに対し、NeRVはフレームインデックスを入力とするニューラルネットワークとして動画を表現する。指定されたフレームインデックスに対して、NeRVは対応するRGB画像を出力する。NeRVにおける動画符号化は、動画フレームにニューラルネットワークを適合させることに帰着し、復号処理は単純な前向き伝播（feedforward）操作で実現される。画像単位の暗黙的表現としてのNeRVは、全画像を出力するため、ピクセル単位の暗黙的表現と比較して極めて高い効率を示し、符号化速度を25倍から70倍、復号速度を38倍から132倍向上させながら、より優れた動画品質を達成している。このような表現により、動画をニューラルネットワークとして扱うことが可能となり、複数の動画関連タスクを簡素化できる。たとえば、従来の動画圧縮手法は、特定のタスクに特化した長く複雑なパイプラインに制限されている。これに対してNeRVを用いることで、任意のニューラルネットワーク圧縮手法を動画圧縮の代理として利用でき、従来のフレームベースの動画圧縮手法（H.264、HEVCなど）と同等の性能を達成することが可能である。さらに、圧縮に加えて、NeRVの汎化能力を動画ノイズ除去に応用することも示した。ソースコードおよび事前学習済みモデルは、https://github.com/haochen-rye/NeRV.git にて公開されている。

ソースPDF