
要約
ニューラルフィールド(座標ベースまたは暗黙的ニューラル表現とも呼ばれる)は、さまざまな信号の表現・生成・操作において優れた能力を示している。しかし、動画表現においては、ピクセル単位の座標をRGBカラーにマッピングする手法は、相対的に低い圧縮性能と遅い収束速度・推論速度を示している。これに対して、時間座標をそのフレーム全体にマッピングするフレーム単位の動画表現が、近年、圧縮率とエンコーディング速度の向上を目的とした代替手法として注目されている。しかし、依然として最先端の動画圧縮アルゴリズムの性能には達していない。本研究では、標準的な動画コーデックを参考に、フレーム間の時間的冗長性を活用するため、フロー情報をフレーム単位表現に組み込む新しい手法「FFNeRV」を提案する。さらに、1次元の時間的グリッドを用いて実現可能な完全畳み込み型アーキテクチャを導入し、空間特徴の連続性を向上させた。実験結果から、フレーム単位表現またはニューラルフィールドを用いる手法の中で、FFNeRVは動画圧縮およびフレーム補間において最も優れた性能を達成することが明らかになった。モデルサイズのさらなる削減を図るため、グループ畳み込みとポイントワイズ畳み込みを活用したよりコンパクトな畳み込みアーキテクチャも提案している。量子化に配慮した訓練やエントロピー符号化といったモデル圧縮技術を組み合わせることで、FFNeRVは広く使用されている標準動画コーデック(H.264およびHEVC)を上回る性能を発揮し、最先端の動画圧縮アルゴリズムと同等の性能を達成した。