17日前
ML-CrAIST:マルチスケール低高周波情報に基づくクロスブラックアテンションを有する画像超解像Transformer
Alik Pramanick, Utsav Bheda, Arijit Sur

要約
近年、トランスフォーマーは単一画像超解像タスクにおいて大きな注目を集め、性能向上が顕著に示されている。現在のモデルは、画像から高レベルの意味的詳細を抽出するネットワークの広範な能力に大きく依存している一方で、マルチスケールの画像詳細やネットワーク内の中間情報を効果的に活用する点に課題を抱えている。さらに、低周波領域と比較して、高周波領域における画像の複雑さが超解像処理において顕著な困難をもたらすことが明らかになっている。本研究では、複数スケールにおける低周波・高周波情報の活用を特徴とする、トランスフォーマーに基づく超解像アーキテクチャ「ML-CrAIST」を提案する。従来の多く(空間次元またはチャネル次元に限定された)手法とは異なり、空間的およびチャネル的自己注意機構を併用することで、空間次元とチャネル次元の両方からピクセル間の相互作用を同時にモデル化し、空間軸とチャネル軸間の固有の相関関係を効果的に捉える。さらに、低周波と高周波情報間の相関を探索するためのクロスアテンションブロックを設計した。定量的および定性的な評価結果から、本研究で提案するML-CrAISTは最先端の超解像手法を上回ることが確認された(例:Manga109 ×4において0.15 dBの性能向上)。実装コードは以下のリンクから公開されている:https://github.com/Alik033/ML-CrAIST。