Uformer: 이미지 복원을 위한 일반적인 U형 트랜스포머

본 논문에서는 이미지 복원을 위한 효과적이고 효율적인 트랜스포머 기반 아키텍처인 Uformer를 제시합니다. Uformer에서는 트랜스포머 블록을 사용하여 계층적 인코더-디코더 네트워크를 구축하였습니다. Uformer에는 두 가지 핵심 설계가 포함되어 있습니다. 첫째, 비중복 창(self-attention) 기반의 새로운 로컬 강화 창(LeWin) 트랜스포머 블록을 도입하였습니다. 이 블록은 전역 자기 주의(global self-attention) 대신 비중복 창 기반의 자기 주의를 수행하여 고해상도 특징 맵에서의 계산 복잡성을 크게 줄이면서 로컬 컨텍스트를 포착합니다. 둘째, 다중 스케일 공간 편향(multi-scale spatial bias) 형태의 학습 가능한 다중 스케일 복원 모듈레이터를 제안하였습니다. 이 모듈레이터는 Uformer 디코더의 여러 층에서 특징을 조정하며, 다양한 이미지 복원 작업에 대한 세부 정보 복원 능력이 우수함을 입증하였으며, 추가 매개변수와 계산 비용이 거의 없이 이를 실현하였습니다.이 두 가지 설계 덕분에 Uformer는 이미지 복원에 있어 로컬과 글로벌 의존성을 모두 효과적으로 포착할 수 있는 높은 능력을 갖추고 있습니다. 우리의 접근 방식을 평가하기 위해, 이미지 노이즈 제거(image denoising), 모션 블러 제거(motion deblurring), 초점 밖 블러 제거(defocus deblurring), 그리고 비제거(deraining) 등 여러 이미지 복원 작업에 대해 광범위한 실험이 수행되었습니다. 부가적인 요소 없이 우리의 Uformer는 최신 알고리즘들과 비교하여 우수하거나 유사한 성능을 보여주었습니다. 코드와 모델은 https://github.com/ZhendongWang6/Uformer에서 확인할 수 있습니다.