15日前

PS-NeRV:動画向けのパッチ単位スタイリッシュ化ニューラル表現

Yunpeng Bai, Chao Dong, Cairong Wang
PS-NeRV:動画向けのパッチ単位スタイリッシュ化ニューラル表現
要約

本研究では、動画をimplicit neural representations(INRs)によって表現する手法を検討する。従来のINRs手法は、入力座標を出力画素にマッピングするため、主にMLP(多層パーセプトロン)を用いている。近年の研究では、CNNを用いて画像全体を直接再構成するアプローチも試みられている。しかし、本研究では、これらのピクセル単位および画像単位のアプローチが動画データに対して適していないと考える。そこで、パッチ単位の解決策であるPS-NeRVを提案する。PS-NeRVは、動画を「パッチ」と「その対応するパッチ座標」の関数として表現する。このアプローチは画像単位手法の利点を自然に継承しつつ、高速なデコード速度を実現しつつ優れた再構成性能を達成する。本手法は、位置埋め込み(positional embedding)、MLP、CNNといった従来のモジュールを組み合わせながら、中間特徴の強化にAdaIN(Adaptive Instance Normalization)を導入している。これらのシンプルでありながら重要な変更により、ネットワークは高周波成分の詳細を容易に捉えることができる。広範な実験により、動画圧縮や動画補間(video inpainting)といった複数の動画関連タスクにおいて、本手法の有効性が実証された。

PS-NeRV:動画向けのパッチ単位スタイリッシュ化ニューラル表現 | 最新論文 | HyperAI超神経