
본 연구는 인지적 초해상도(Perceptual Super-Resolution, SR)에서 품질 유지(fidelity) 목적을 다룬다. 구체적으로, GAN 기반 SR 프레임워크에서 픽셀 수준의 $L_\text{p}$ 손실($\mathcal{L}\text{pix}$)이 가지는 한계를 다룬다. $L\text{pix}$는 인지적 품질과의 트레이드오프 관계가 있음이 잘 알려져 있으며, 기존의 방법들은 이를 보완하기 위해 작은 스케일 팩터를 곱하거나 저역통과 필터(low-pass filter)를 활용하는 방식을 채택해왔다. 그러나 본 연구는 이러한 보완 방식이 왜곡을 유발하는 근본적인 원인을 해결하지 못함을 보여준다. 따라서 본 연구는 두 가지 핵심 포인트에 초점을 맞춘다: 1) $L_\text{pix}$ 중 왜곡을 초래하는 하위 성분을 정확히 식별하는 것, 그리고 2) 이러한 트레이드오프 관계로부터 자유로운 요소에만 기반하여 지도를 제공하는 것. 우리는 이러한 목표들이 예상치 못하게 단순한 방식으로 달성될 수 있음을 입증한다. 이를 위해 $L_\text{pix}$로 미리 학습된 자동인코더(Auto-Encoder, AE)를 활용한다. 이를 바탕으로, 원시 픽셀 공간이 아닌 AE 공간에서 거리 측정을 수행하는 새로운 손실 함수인 자동인코딩된 최적의 벌점 지도 손실($L_\text{AESOP}$)을 제안한다. 여기서 AE 공간은 봉쇄(bottleneck)가 아닌 디코더 이후의 공간을 의미한다. 단순히 $L_\text{pix}$를 $L_\text{AESOP}$로 대체함으로써, 인지적 품질을 훼손하지 않으면서도 효과적인 재구성 지도를 제공할 수 있다. 본 방법은 간단한 설계를 기반으로 하여 기존 SR 프레임워크에 쉽게 통합 가능하다. 실험 결과를 통해 AESOP이 인지적 초해상도 작업에서 우수한 성능을 발휘함을 확인할 수 있다.