17日前

画像超解像のための再帰的一般化Transformer

Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang
画像超解像のための再帰的一般化Transformer
要約

Transformerアーキテクチャは、画像のスーパーレゾリューション(SR)において顕著な性能を示している。しかし、Transformerにおける自己注意機構(Self-Attention, SA)の計算量が二次関数的であるため、従来の手法では計算負荷を抑えるためにSAを局所領域に限定して使用する傾向にある。しかしながら、この局所的な設計は、正確な画像再構成に不可欠なグローバルな文脈情報の活用を制限してしまう。本研究では、グローバルな空間情報を効果的に捉え、高解像度画像に適した画像SR用の「再帰的汎化Transformer(Recursive Generalization Transformer, RGT)」を提案する。具体的には、再帰的汎化自己注意(Recursive-Generalization Self-Attention, RG-SA)を設計した。この機構は、入力特徴量を再帰的に代表的な特徴マップに集約し、その後クロスアテンションを用いてグローバル情報を抽出する。さらに、アテンション行列(クエリ、キー、バリュー)のチャネル次元を拡張することで、チャネル領域における冗長性を低減する。また、RG-SAと局所自己注意機構を組み合わせ、グローバル文脈の活用を強化し、モジュール統合のための「ハイブリッド適応統合(Hybrid Adaptive Integration, HAI)」を提案する。HAIは、異なるレベル(局所的またはグローバル)の特徴量間の直接的かつ効果的な融合を可能にする。広範な実験により、本手法RGTが最近の最先端手法を定量的・定性的に上回ることを示した。コードおよび事前学習済みモデルは、https://github.com/zhengchen1999/RGT にて公開されている。