7일 전
U2-Former: 이미지 복원을 위한 중첩 U-형 트랜스포머
Haobo Ji, Xin Feng, Wenjie Pei, Jinxing Li, Guangming Lu

초록
Transformer는 다양한 고수준 비전 작업에서 놀라운 성능을 달성하고 있으나, 이미지 복원 분야에서 Transformer의 잠재력을 최대한 발휘하는 것은 여전히 도전 과제이다. 그 핵심은 이미지 복원을 위한 전형적인 인코더-디코더 아키텍처에서 Transformer를 적용할 수 있는 깊이가 제한되어 있다는 데에 있다. 이는 강력한 자기주의(self-attention) 계산 부담과 서로 다른 층(스케일) 간의 비효율적인 통신으로 인해 발생한다. 본 논문에서는 이미지 복원을 깊이 있는 인코딩 및 디코딩 공간에서 수행할 수 있도록 Transformer를 핵심 연산으로 활용할 수 있는 깊이 있고 효과적인 Transformer 기반 네트워크인 U2-Former을 제안한다. 특히, 서로 다른 스케일의 특징 맵 간의 상호작용을 촉진하기 위해 중첩된 U자형 구조(nested U-shaped structure)를 활용한다. 더불어, 기본적인 Transformer 블록의 계산 효율성을 개선하기 위해 토큰 표현을 압축하는 특징 필터링 기법을 도입한다. 전형적인 이미지 복원에 대한 감독 학습 외에도, U2-Former은 다중 측면에서 대조 학습(contrastive learning)을 수행하여 노이즈 성분을 배경 이미지로부터 더욱 효과적으로 분리한다. 반사 제거, 비줄 제거, 화이트닝 등 다양한 이미지 복원 작업에 대한 광범위한 실험을 통해 제안된 U2-Former의 우수성을 입증하였다.