17일 전

지역 창의 한계를 넘어서기: 적응형 토큰 사전을 갖춘 고급 초해상도 트랜스포머

Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu
지역 창의 한계를 넘어서기: 적응형 토큰 사전을 갖춘 고급 초해상도 트랜스포머
초록

단일 이미지 초해상도 재구성은 저해상도(LR) 이미지로부터 고해상도(HR) 이미지를 추정하는 전통적인 컴퓨터 비전 문제이다. 최근 몇 년간 딥 신경망(DNN), 특히 초해상도를 위한 트랜스포머 모델이 크게 발전했음에도 불구하고, 창문 기반 자기 주의(multi-head self-attention) 구조로 인해 제한된 수용영역(receptive field)이 여전히 주요 과제로 남아 있다. 이러한 문제를 해결하기 위해, 우리는 SR 트랜스포머에 보조적인 적응형 토큰 사전(Adaptive Token Dictionary, ATD)을 도입하고, ATD-SR 방법을 제안한다. 제안한 토큰 사전은 학습 데이터로부터 사전 지식(prior information)을 학습하고, 적응형 보정 단계를 통해 특정 테스트 이미지에 맞게 학습된 사전 지식을 조정할 수 있다. 이 보정 전략은 입력 토큰 전체에 전역 정보를 제공할 뿐만 아니라, 이미지 토큰을 다양한 카테고리로 그룹화할 수 있다. 이러한 카테고리 분할 기반으로, 원거리에 있지만 유사한 토큰들을 효과적으로 활용하여 입력 특징을 강화할 수 있도록 카테고리 기반 자기 주의 메커니즘을 제안한다. 실험 결과, 제안한 방법이 다양한 단일 이미지 초해상도 벤치마크에서 최고의 성능을 달성함을 확인하였다.