17일 전

채널 분할 창형 어텐션 및 주파수 학습을 통한 단일 이미지 초해상도 복원

Dinh Phu Tran, Dao Duy Hung, Daeyoung Kim
채널 분할 창형 어텐션 및 주파수 학습을 통한 단일 이미지 초해상도 복원
초록

최근 들어 창문 기반 주의(attention) 기법은 컴퓨터 비전 작업, 특히 단일 이미지 초해상도 복원(Single Image Super-Resolution, SISR) 분야에서 큰 잠재력을 보여주고 있다. 그러나 이러한 기법은 멀리 떨어진 토큰 간의 장거리 종속성과 관계를 효과적으로 포착하지 못할 수 있다. 또한 본 연구에서는 공간 도메인에서의 학습이 이미지의 주파수 정보를 적절히 전달하지 못한다는 점을 발견하였다. 이는 SISR에서 매우 중요한 특성임에도 불구하고, 기존 방법에서는 충분히 고려되지 않았다. 이러한 문제를 해결하기 위해, 특징 맵의 높이와 너비 방향으로 창문을 순차적으로 확장함으로써 장거리 종속성을 보다 효과적으로 포착할 수 있는 새로운 채널 분할 주의 변형기(Channel-Partitioned Attention Transformer, CPAT)를 제안한다. 더불어, 공간 도메인과 주파수 도메인의 정보를 통합하여 특징 맵으로부터 보다 포괄적인 정보를 제공하는 새로운 공간-주파수 상호작용 모듈(Spatial-Frequency Interaction Module, SFIM)을 제안한다. 이 모듈은 주파수 정보에 대한 이해를 강화하고 전체 이미지에 걸쳐 수용 영역을 확장함으로써 특징 표현의 풍부함을 높인다. 실험 결과는 제안된 모듈 및 아키텍처의 효과성을 입증한다. 특히, CPAT는 Urban100 데이터셋에서 x2 초해상도 복원 작업에서 기존 최고 성능 기법보다 최대 0.31dB의 성능 향상을 달성하였다.

채널 분할 창형 어텐션 및 주파수 학습을 통한 단일 이미지 초해상도 복원 | 최신 연구 논문 | HyperAI초신경