이미지 흐림 제거를 위한 효율적인 시각 상태 공간 모델

컨볼루셔널 신경망(Convolutional Neural Networks, CNNs)과 비전 트랜스포머(Vision Transformers, ViTs)는 이미지 복원 분야에서 뛰어난 성능을 달성해왔다. 특히 ViTs는 장거리 의존성과 입력에 특화된 특징을 효과적으로 포착함으로써 일반적으로 CNN보다 우수한 성능을 보이지만, 이미지 해상도가 증가함에 따라 계산 복잡도가 해상도의 제곱에 비례해 증가하는 한계를 지닌다. 이는 고해상도 이미지 복원에서의 실용적 적용을 저해하는 주요 요인이다. 본 논문에서는 시각적 상태공간 모델(Visual State Space Model, EVSSM)을 제안하며, 상태공간 모델(SSMs)이 시각 데이터에 적용될 때 가지는 장점을 활용한다. 기존의 여러 고정된 방향으로의 스캔을 통한 특징 추출 방식은 계산 비용을 크게 증가시키는 반면, 본 연구에서는 각 SSM 기반 모듈 전에 다양한 기하학적 변환을 적용하는 효율적인 시각 스캔 블록을 설계하여 유용한 비국소 정보를 효과적으로 포착하면서도 높은 계산 효율성을 유지한다. 또한, 지역 정보를 더욱 효과적으로 포착하고 표현하기 위해 효율적인 구분형 주파수 도메인 기반 피드포워드 네트워크(EDFFN)를 제안한다. 이 네트워크는 잠재적 명료한 이미지 복원에 유용한 주파수 정보를 효과적으로 추정할 수 있다. 광범위한 실험 결과는 제안된 EVSSM이 기준 데이터셋 및 실제 이미지에서 최신 기술 대비 유리한 성능을 보임을 입증한다. 코드는 https://github.com/kkkls/EVSSM 에서 공개되어 있다.