動画スーパーレゾリューションTransformerにおけるアライメントの再考

隣接フレーム間のアライメントは、動画スーパーレゾリューション(VSR)において基本的な操作とされている。最新のVSR変換器(VSR Transformers)を含む先進的なVSRモデルは、一般的に適切に設計されたアライメントモジュールを備えている。しかし、自己注意機構(self-attention mechanism)の進展により、この常識が覆される可能性がある。本論文では、VSR変換器におけるアライメントの役割を再考し、いくつかの直感に反する観察を行った。実験の結果、以下のことが明らかになった:(i)VSR変換器は、アライメントされていない動画からの多フレーム情報を直接利用可能であり、(ii)既存のアライメント手法は、場合によってVSR変換器の性能を損なうことがある。これらの観察から、アライメントモジュールを単に削除し、より大きな注目窓(attention window)を採用することで、VSR変換器の性能をさらに向上させられることが示唆される。しかし、このような設計は計算負荷を著しく増加させ、大規模な動きに対応できないという課題がある。そこで、本研究では、ピクセルではなく画像パッチをアライメント対象とする新しい効率的なアライメント手法「パッチアライメント(patch alignment)」を提案する。パッチアライメントを搭載したVSR変換器は、複数のベンチマークにおいて最先端の性能を達成した。本研究は、多フレーム情報をVSRでどのように活用すべきか、また異なるネットワークやデータセットに応じてアライメント手法をどのように選定すべきかという貴重な知見を提供する。コードおよびモデルは、https://github.com/XPixelGroup/RethinkVSRAlignment にて公開される。