
要約
動画フレーム補間に用いられる大多数の深層学習手法は、特徴量抽出、動き推定、画像合成という3つの主要な構成要素から成り立っている。既存のアプローチは、これらのモジュールの設計方法によって主に区別される。しかし、4Kなどの高解像度画像の補間を行う場合、合理的なメモリ要件内で高い精度を達成するための設計選択肢は限られている。特徴量抽出層は、入力画像を圧縮し、後の段階(たとえば動き推定)に必要な情報を抽出する役割を果たすが、これらの層はパラメータ数、計算時間、メモリ使用量の点でしばしば高コストである。本研究では、次元削減のアイデアと軽量な最適化手法を組み合わせることで、入力表現を効率的に圧縮しつつ、フレーム補間に適した情報を保持できる方法を示す。さらに、事前学習済みのフロー推定ネットワークや合成ネットワークを必要としないため、学習可能なパラメータ数と必要なメモリ容量をさらに削減できる。3つの4Kベンチマーク上で評価した結果、事前学習済みフローを用いない手法の中で最先端の画像品質を達成し、全体としてネットワークの複雑さとメモリ要件が最小であることを確認した。