11日前

E-NeRV:分離された空間時系列コンテキストを用いたニューラルビデオ表現の高速化

Zizhang Li, Mengmeng Wang, Huaijin Pi, Kechun Xu, Jianbiao Mei, Yong Liu
E-NeRV:分離された空間時系列コンテキストを用いたニューラルビデオ表現の高速化
要約

近年、動画の画像単位でのimplicit neural表現としてNeRVが注目を集めている。これは従来のピクセル単位のimplicit表現と比較して、優れた性能と高速な処理速度を実現しているためである。しかし、性能を向上させるためにモデルを拡大する際、ネットワーク構造内の重複パラメータが原因でモデルサイズが著しく増大するという問題が生じる。この現象の主な原因は、NeRVの定式化がフレームインデックスを入力として、空間情報と時間情報を直接出力するという結合型の構造に起因している。本論文では、この問題を解決するため、画像単位のimplicit neural表現を空間的コンテキストと時間的コンテキストに分解する新たなアプローチを提案する。この新しい定式化に基づき、我々のモデルは冗長なパラメータを大幅に削減しつつ、表現能力を維持できる。実験の結果、少ないパラメータ数で性能を著しく向上させることができ、収束速度が8倍以上に高速化することが明らかになった。コードは以下のGitHubページで公開されている:https://github.com/kyleleey/E-NeRV。