
초록
큰 마스크를 활용한 고해상도 이미지 보완에서 전 세계적 맥락 상호작용을 올바르게 연결하는 것은 매우 중요하다. 과거의 방법들은 깊은 또는 큰 수용영역(receptive field, RF)을 갖는 컨볼루션을 통해 이를 시도했지만, 이는 근접한 상호작용의 지배를 피할 수 없으며, 그 결과 품질이 떨어질 수 있다. 본 논문에서는 이미지 보완을 방향성 없는 시퀀스-투-시퀀스 예측 문제로 간주하고, 인코더에서 장거리 의존성을 직접 포착하기 위해 트랜스포머를 도입한다. 특히, 가중치가 부여된 토큰 표현을 위해 작은 크기이면서 겹치지 않는 수용영역을 갖는 제약된 CNN을 활용함으로써, 트랜스포머가 모든 레이어에서 장거리로 분리된 가시 영역 간의 관계를 동일한 중요도로 명시적으로 모델링할 수 있게 하였다. 더 큰 수용영역을 사용할 경우 이웃 토큰들 간의 암묵적 혼동을 피할 수 있다. 가시 영역과 생성 영역 간의 시각적 일관성을 향상시키기 위해, 멀리 떨어진 고주파 특징을 보다 효과적으로 활용할 수 있도록 새로운 주의-aware 레이어(Attention-aware Layer, AAL)를 제안한다. 전체적으로, 여러 데이터셋에서 실시된 광범위한 실험을 통해 기존 최고 수준의 방법들에 비해 뛰어난 성능을 입증하였다.