LoFormer: 이미지 흐림 제거를 위한 국소 주파수 트랜스포머

자기주의(self-attention, SA)의 계산 복잡성으로 인해, 현재 널리 사용되는 이미지 흐림 제거 기법은 일반적으로 국소적 자기주의를 채택하거나, 거시적 전역 자기주의 방법을 활용하는 방식을 선택한다. 그러나 이러한 접근 방식은 전역 모델링 능력을 희생하거나 세밀한 상관관계를 충분히 반영하지 못하는 등의 단점이 있다. 이러한 문제를 해결하기 위해, 세밀한 세부 정보를 희생하지 않으면서도 장거리 의존성을 효과적으로 모델링할 수 있는 새로운 접근 방식인 로컬 주파수 트랜스포머(Local Frequency Transformer, LoFormer)를 제안한다. LoFormer의 각 단위 내부에서는 주파수 도메인에서 국소 채널별 자기주의(Freq-LC)를 도입하여, 저주파 및 고주파 국소 창 내에서의 교차공분산(cross-covariance)을 동시에 캡처한다. 이러한 연산은 다음과 같은 장점을 제공한다. (1) 거시적 구조와 세밀한 세부 정보에 대해 균형 잡힌 학습 기회를 보장하며, (2) 거시적 전역 자기주의 기법보다 더 광범위한 표현 특성을 탐색할 수 있다. 또한 Freq-LC와 보완적으로 작동하는 MLP 게이팅(MLP Gating) 메커니즘을 도입하여, 관련 없는 특징을 필터링하고 전역 학습 능력을 강화한다. 실험 결과, LoFormer은 이미지 흐림 제거 작업에서 뛰어난 성능을 달성하였으며, GoPro 데이터셋에서 126G FLOPs의 계산량으로 PSNR 34.09 dB를 기록하였다.https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur