HMANet:画像スーパーレゾリューション向けハイブリッドマルチアキス集約ネットワーク

Transformerを基盤とする手法は、超解像画像処理において従来の畳み込みニューラルネットワークを上回る優れた性能を示している。しかし、既存の研究では計算コストを抑えるために自己注意(self-attention)の計算を重複しないウィンドウに制限する傾向がある。このため、Transformerベースのネットワークは入力情報の空間的な範囲を限定された領域にしか利用できず、特徴の潜在的な情報を十分に活用できないという課題がある。本研究では、こうした制約を克服し、特徴の潜在的情報をより効果的に活用するため、新しいハイブリッド多軸集約ネットワーク(Hybrid Multi-Axis Aggregation network, HMA)を提案する。HMAは、リジッドハイブリッドTransformerブロック(Residual Hybrid Transformer Block, RHTB)とグリッド注意ブロック(Grid Attention Block, GAB)を段階的に積層することで構成されている。RHTBはチャネル注意と自己注意を統合することで、非局所的な特徴融合を強化し、より自然で魅力的な視覚的結果を生成する。一方、GABは異なるドメイン間の情報連携に用いられ、類似する特徴を同時にモデル化することで、より広い知覚フィールド(perceptual field)を獲得する。学習フェーズにおける超解像タスクでは、モデルの表現能力をさらに向上させるために、新たな事前学習手法を設計し、多数の実験を通じて提案モデルの有効性を検証した。実験結果から、HMAはベンチマークデータセットにおいて最先端の手法を上回る性能を達成した。本研究で開発したコードとモデルは、GitHubにて公開されている(https://github.com/korouuuuu/HMA)。