3ヶ月前

WaveMixSR:画像スーパーレゾリューション向けのリソース効率型ニューラルネットワーク

Pranav Jeevan, Akella Srinidhi, Pasunuri Prathiba, Amit Sethi
WaveMixSR:画像スーパーレゾリューション向けのリソース効率型ニューラルネットワーク
要約

近年の画像スーパーレゾリューション研究は、自己注意(self-attention)の二次時間計算量に起因する高い計算リソース要件のため、CNNよりも大きな負荷を要するTransformerモデルによって主導されてきた。本研究では、2次元離散ウェーブレット変換(2D-discrete wavelet transform)を用いた空間的トークン混合(spatial token-mixing)を実現するWaveMixアーキテクチャに基づく新しいニューラルネットワーク「WaveMixSR」を提案する。Transformerベースのモデルとは異なり、WaveMixSRは画像をピクセルまたはパッチのシーケンスに展開しない。代わりに、畳み込みの誘導的バイアス(inductive bias)とウェーブレット変換の損失なしのトークン混合特性を活用することで、より少ないリソースおよび訓練データで高い性能を達成する。本研究では、WaveMixSRの性能を他の最先端手法と比較した。実験の結果、WaveMixSRはすべてのデータセットにおいて競争力ある性能を示し、特にBSD100データセットにおいて複数のスーパーレゾリューションタスクで最先端の性能を達成した。また、現在の最先端モデルと比較して、より少ない訓練データと計算リソースで高いパラメータ効率を維持しつつ、優れた性能を実現していることが明らかになった。