CFAT: 이미지 초해상도를 위한 삼각 창의 잠재력을 극대화하기

Transformer 기반 모델은 이미지 초해상도(image super-resolution, SR) 분야에서 복잡한 맥락적 특징을 효과적으로 포착할 수 있는 본질적 능력을 활용함으로써 혁신을 이끌어냈다. 현재 Transformer 아키텍처에서 널리 사용되는 겹치는 직사각형 이동 윈도우(overlapping rectangular shifted window) 기법은 초해상도 모델에서 이미지 확대 품질과 견고성을 향상시키기 위한 일반적인 접근 방식이다. 그러나 이 기법은 경계부에서 왜곡을 유발하고, 고유한 이동 모드의 수가 제한적이라는 단점이 있다. 이러한 문제를 극복하기 위해 본 연구에서는 직사각형 윈도우와 동시에 작동하는 겹치지 않는 삼각형 윈도우 기법을 제안한다. 이 기법은 경계 수준의 왜곡을 완화하고, 모델이 더 다양한 고유한 선택 모드에 접근할 수 있도록 한다. 본 논문에서는 삼각형-직사각형 윈도우 기반의 국소적 어텐션과 채널 기반 전역 어텐션 기법을 결합한 복합 융합 어텐션 Transformer(CFAT, Composite Fusion Attention Transformer)를 제안한다. 그 결과, CFAT은 어텐션 메커니즘이 더 많은 이미지 픽셀에 활성화되며, 장거리 다중 스케일 특징을 효과적으로 포착함으로써 초해상도 성능을 향상시킨다. 광범위한 실험 결과와 아블레이션 스터디를 통해 CFAT의 초해상도 분야에서의 효과성을 입증하였다. 제안된 모델은 기존 최첨단 초해상도 아키텍처들에 비해 약 0.7 dB의 유의미한 성능 향상을 보였다.