17일 전
지역 창의 한계를 넘어서기: 적응형 토큰 사전을 갖춘 고급 초해상도 트랜스포머
Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu

초록
단일 이미지 초해상도 재구성은 저해상도(LR) 이미지로부터 고해상도(HR) 이미지를 추정하는 전통적인 컴퓨터 비전 문제이다. 최근 몇 년간 딥 신경망(DNN), 특히 초해상도를 위한 트랜스포머 모델이 크게 발전했음에도 불구하고, 창문 기반 자기 주의(multi-head self-attention) 구조로 인해 제한된 수용영역(receptive field)이 여전히 주요 과제로 남아 있다. 이러한 문제를 해결하기 위해, 우리는 SR 트랜스포머에 보조적인 적응형 토큰 사전(Adaptive Token Dictionary, ATD)을 도입하고, ATD-SR 방법을 제안한다. 제안한 토큰 사전은 학습 데이터로부터 사전 지식(prior information)을 학습하고, 적응형 보정 단계를 통해 특정 테스트 이미지에 맞게 학습된 사전 지식을 조정할 수 있다. 이 보정 전략은 입력 토큰 전체에 전역 정보를 제공할 뿐만 아니라, 이미지 토큰을 다양한 카테고리로 그룹화할 수 있다. 이러한 카테고리 분할 기반으로, 원거리에 있지만 유사한 토큰들을 효과적으로 활용하여 입력 특징을 강화할 수 있도록 카테고리 기반 자기 주의 메커니즘을 제안한다. 실험 결과, 제안한 방법이 다양한 단일 이미지 초해상도 벤치마크에서 최고의 성능을 달성함을 확인하였다.