
초록
이미지 보완 기술은 컨볼루션 신경망(CNN)의 강력한 텍스처 모델링 능력 덕분에 큰 진전을 이뤘다. 그러나 CNN는 특정한 내재적 특성(예: 국소적 인도적 사전 지식, 공간 불변 커널)으로 인해 전반적인 구조 이해나 다중 해석적 보완을 자연스럽게 지원하지 못하는 한계가 있다. 최근 트랜스포머는 장기적 관계 모델링과 다양한 결과 생성 능력에서 뛰어난 성능을 보여주고 있으나, 입력 길이에 대해 계산 복잡도가 이차적으로 증가하므로 고해상도 이미지 처리에 적용하는 데 어려움이 있다. 본 논문은 이 두 기술의 장점을 결합하여 다중 해석적 이미지 보완을 실현한다: 트랜스포머를 활용한 외형 사전 구조 복원과 CNN을 활용한 텍스처 보충. 첫 번째 트랜스포머는 다중 해석 가능한 일관된 구조와 일부 거친 텍스처를 복원하고, 두 번째 CNN은 고해상도 마스크 이미지를 기반으로 거친 사전 정보의 국소적 텍스처 세부 정보를 강화한다. 제안된 방법은 세 가지 측면에서 최신 기술보다 훨씬 뛰어난 성능을 보였다. 첫째, 결정론적 보완 방법과 비교해도 이미지의 정확성(Fidelity)에서 큰 성능 향상을 보였다. 둘째, 다중 해석적 보완의 경우 더 뛰어난 다양성과 높은 정확도를 동시에 달성했다. 셋째, 대규모 마스크와 일반적인 데이터셋(예: ImageNet)에 대해 뛰어난 일반화 능력을 보였다.