Transformer를 위한 주파수 기반 최적화 탐구: 효율적인 단일 이미지 초해상도를 위한 접근

Transformer 기반 방법은 장거리 의존성을 효과적으로 추출함으로써 단일 이미지 초해상도(SISR) 분야에서 놀라운 잠재력을 보여주고 있다. 그러나 현재까지의 대부분의 연구는 전역 정보를 포착하기 위해 트랜스포머 블록 설계에 주력하면서, 고주파 사전 지식(고주파 프리오르)을 통합하는 중요성을 간과해왔다. 우리는 이러한 고주파 정보의 통합이 매우 유용할 수 있다고 판단하고, 본 연구에서 일련의 실험을 수행한 결과, 트랜스포머 구조가 저주파 정보를 보다 효과적으로 추출할 수 있지만, 컨볼루션 구조에 비해 고주파 표현을 구성하는 능력이 제한적임을 발견하였다. 이에 우리는 컨볼루션과 트랜스포머 구조의 장점을 결합한 새로운 접근법을 제안한다. 제안하는 모델인 크로스 리포지셔닝 적응형 특징 조절 트랜스포머(CRAFT: Cross-Refinement Adaptive Feature Modulation Transformer)는 세 가지 핵심 구성 요소로 이루어져 있다. 첫째, 고주파 정보를 추출하기 위한 고주파 강화 잔차 블록(HFERB: High-Frequency Enhancement Residual Block)이며, 둘째, 전역 정보를 포착하기 위한 시프트 사각 창 주의력 블록(SRWAB: Shift Rectangle Window Attention Block)이며, 셋째, 전역 표현을 정교화하기 위한 하이브리드 융합 블록(HFB: Hybrid Fusion Block)이다. 또한 트랜스포머 구조가 내재적으로 가지는 복잡성 문제를 해결하기 위해, CRAFT의 효율성을 향상시키기 위한 주파수 유도형 사후 훈련 양자화(PTQ: Post-Training Quantization) 기법을 도입하였다. 이 기법은 적응형 이중 클리핑(Adaptive Dual Clipping)과 경계 정밀화(Boundary Refinement) 전략을 포함한다. 더 나아가 제안하는 PTQ 전략을 일반화하여, 트랜스포머 기반 SISR 기법 전반에 적용 가능한 보편적인 양자화 방법으로 확장하였다. 실험 결과, CRAFT는 정밀도가 높은 전체 정밀도(full-precision) 환경과 양자화 환경 모두에서 기존 최첨단 기법들을 압도하는 성능을 보였다. 이러한 결과는 제안한 PTQ 전략의 효과성과 보편성을 입증한다. 코드는 아래 링크에서 공개되어 있다: https://github.com/AVC2-UESTC/Frequency-Inspired-Optimization-for-EfficientSR.git.