画像超解像のためのデュアルアグリゲーションTransformer

近年、Transformerは画像超解像(SR)を含む低レベル視覚タスクにおいて大きな注目を集めている。これらのネットワークは空間次元およびチャネル次元に沿った自己注意(self-attention)を活用し、優れた性能を達成している。この知見を踏まえ、空間次元とチャネル次元の両方を統合することで、より強力な表現能力を有するモデルの構築を試みた。その結果、本研究では、画像超解像を目的とした新しいTransformerモデル「Dual Aggregation Transformer(DAT)」を提案する。本モデルは、ブロック間(inter-block)およびブロック内(intra-block)の二重アグリゲーション機構を採用し、空間的およびチャネル的特徴を統合的に処理する。具体的には、連続するTransformerブロックにおいて、空間自己注意とチャネル自己注意を交互に適用する戦略を採用している。この交互戦略により、DATはグローバルな文脈情報を効果的に捉え、ブロック間での特徴アグリゲーションを実現できる。さらに、ブロック内での特徴アグリゲーションを実現するために、適応的相互作用モジュール(Adaptive Interaction Module, AIM)と空間ゲート型フィードフォワードネットワーク(Spatial-Gate Feed-Forward Network, SGFN)を提案する。AIMは対応する次元からの二つの自己注意機構を補完的に統合し、SGFNはフィードフォワードネットワーク内に追加の非線形空間情報を導入することで、特徴表現の豊かさを向上させる。広範な実験の結果、本モデルは既存の手法を上回る性能を達成した。コードおよびモデルは、https://github.com/zhengchen1999/DAT にて公開されている。