7日前
U2-Former:画像復元のためのネスト型U字型Transformer
Haobo Ji, Xin Feng, Wenjie Pei, Jinxing Li, Guangming Lu

要約
トランスフォーマーは、さまざまな高レベルな視覚タスクにおいて顕著な性能を発揮しているが、画像復元においてその潜在能力を十分に引き出すのは依然として困難である。その根本的な原因は、画像復元に一般的に用いられるエンコーダ・デコーダフレームワークにおいて、トランスフォーマーの適用深度が限られていることにあり、これは自己注意(self-attention)演算負荷が重く、異なる層間(スケール間)での通信が非効率であるためである。本論文では、画像復元のための深く効果的なトランスフォーマー基盤ネットワーク、U2-Formerを提案する。このモデルは、深いエンコーディング・デコーディング空間において、トランスフォーマーをコア演算として用いることで、画像復元を実現可能にする。具体的には、異なるスケールの特徴マップ間の相互作用を促進するため、ネストされたU字型構造を活用している。さらに、基本的なトランスフォーマーブロックの計算効率を最適化するために、トークン表現の圧縮を可能にする特徴フィルタリング機構を導入している。画像復元における従来の教師付き学習に加えて、U2-Formerは複数の観点から対照学習(contrastive learning)を実施し、ノイズ成分を背景画像からより明確に分離することを可能にしている。反射除去、雨線除去、霞除去といった多様な画像復元タスクにおける広範な実験により、提案するU2-Formerの有効性が実証された。