17일 전

PPformer: 저조도 이미지 증강을 위한 픽셀 단위 및 패치 단위 크로스 어텐션 사용

{X Qin, Y Zhong, J Dang}
초록

최근 들어, 자기주의(self-attention)를 활용한 특징 추출 방식을 도입함으로써, 전이형(Transformer) 기반 방법은 저조도 이미지 강화 작업에서 CNN 기반 방법과 경쟁력을 갖추게 되었다. 전이형 기반 방법은 저조도 이미지 강화에 필수적인 장거리 픽셀 간 의존성 모델링에 뛰어난 성능을 발휘하며, 더 나은 조명 조절, 자연스러운 색상 표현 및 높은 대비도 가능하게 한다. 그러나 자기주의의 높은 계산 비용은 저조도 이미지 강화 분야에서의 적용을 제한하고 있으며, 일부 기존 연구들은 정확도와 계산 비용 사이의 균형을 이루는 데 어려움을 겪고 있다. 본 연구에서는 저조도 이미지 강화를 위한 경량화되고 효과적인 네트워크인 PPformer를 제안한다. PPformer는 제안된 픽셀 단위 및 패치 단위 교차주의(pixel-wise and patch-wise cross-attention) 메커니즘을 기반으로 하며, CNN과 전이형의 하이브리드 아키텍처로 구성되어 있다. PPformer는 로컬 브랜치, 글로벌 브랜치, 이중 교차주의(Dual Cross-Attention)로 구성되며, 각 구성 요소는 네트워크 내에서 핵심적인 역할을 수행한다. 구체적으로, 로컬 브랜치는 와이드 강화 모듈(Wide Enhancement Module)의 스택을 통해 국소적인 구조 정보를 추출하고, 글로벌 브랜치는 패치 교차 모듈(Cross Patch Module)과 글로벌 컨볼루션 모듈(Global Convolution Module)을 통해 정교화된 글로벌 정보를 제공한다. 또한 자기주의와 달리, 본 연구에서는 추출된 글로벌 세미틱 정보를 활용하여 국소적 및 비국소적 영역 간의 의존성 모델링을 유도한다. 이중 교차주의를 계산함으로써, PPformer는 색상 일관성, 자연스러운 밝기 및 대비를 갖춘 이미지를 효과적으로 복원할 수 있다. 제안된 이중 교차주의 메커니즘 덕분에, PPformer는 전체 크기의 특징 맵에서 픽셀 수준과 패치 수준 모두에서 의존성을 효과적으로 포착할 수 있다. 11개의 실제 환경 기준 데이터셋에 대한 광범위한 실험 결과는, PPformer가 기존 최고 성능 기법들보다 더 우수한 정량적 및 정성적 성능을 달성함을 입증한다.