3달 전

MambaIR: 상태공간 모델을 활용한 이미지 복원을 위한 간단한 베이스라인

Hang Guo, Jinmin Li, Tao Dai, Zhihao Ouyang, Xudong Ren, Shu-Tao Xia
MambaIR: 상태공간 모델을 활용한 이미지 복원을 위한 간단한 베이스라인
초록

최근 몇 년간 이미지 복원 분야는 CNN 및 트랜스포머와 같은 현대적 깊은 신경망의 발전 덕분에 큰 진전을 이루었다. 그러나 기존의 복원 백본 모델은 전역 수용 영역(global receptive fields)과 효율적인 계산 간의 균형 문제에 직면해 있어 실용적 적용에 한계를 겪고 있다. 최근, 선택적 구조적 상태 공간 모델(Selective Structured State Space Model), 특히 개선된 버전인 Mamba는 선형 복잡도를 갖는 장거리 의존성 모델링에 높은 잠재력을 보여주며, 위의 딜레마를 해결할 수 있는 새로운 길을 제시하고 있다. 그러나 표준 Mamba 모델은 이미지 복원과 같은 저수준 시각 작업에서 국소 픽셀 정보의 잊혀짐과 채널 중복성 등의 문제를 여전히 안고 있다. 본 연구에서는 원시 Mamba 모델의 한계를 보완하기 위해 국소 강화(local enhancement)와 채널 주의 메커니즘(channel attention)을 도입한 간단하면서도 효과적인 기반 모델인 MambaIR을 제안한다. 이를 통해 MambaIR은 국소 픽셀의 유사성 정보를 효과적으로 활용하면서도 채널 중복성을 줄일 수 있다. 광범위한 실험을 통해 제안한 방법의 우수성을 입증하였으며, 예를 들어 이미지 초해상도 복원(image SR)에서 유사한 계산 비용을 사용하면서도 SwinIR보다 최대 0.45dB의 성능 향상을 달성하였다. 코드는 \url{https://github.com/csguoh/MambaIR}에서 공개되어 있다.