2달 전

사진 같은 단일 이미지 초해상도 생성을 위한 생성적 적대 네트워크 사용

Christian Ledig; Lucas Theis; Ferenc Huszar; Jose Caballero; Andrew Cunningham; Alejandro Acosta; Andrew Aitken; Alykhan Tejani; Johannes Totz; Zehan Wang; Wenzhe Shi
사진 같은 단일 이미지 초해상도 생성을 위한 생성적 적대 네트워크 사용
초록

단일 이미지 초해상도(super-resolution)에서 정확성과 속도를 향상시키기 위해 더 빠르고 깊은 합성곱 신경망(convolutional neural networks)을 사용함으로써 많은 발전이 이루어졌지만, 한 가지 핵심적인 문제는 아직 해결되지 않았습니다. 이 문제는 큰 확대 비율(upscaling factors)로 초해상화할 때 세부 질감(texture details)을 어떻게 복원할 수 있는가입니다. 최적화 기반의 초해상화 방법의 동작은 주로 목적 함수(objective function) 선택에 의해 결정됩니다. 최근 연구에서는 주로 평균 제곱 재구성 오류(mean squared reconstruction error)를 최소화하는 데 집중되었습니다. 그 결과 추정치들은 높은 피크 신호 대 잡음비(peak signal-to-noise ratios)를 보이나, 고주파 세부 정보(high-frequency details)가 부족하고, 고해상도에서 예상되는 충실도(fidelity)와 일치하지 않아 시각적으로 만족스럽지 않은 경우가 많습니다.본 논문에서는 SRGAN(Super-Resolution Generative Adversarial Network)을 소개합니다. SRGAN은 이미지 초해상도(image super-resolution, SR)를 위한 생성적 적대 네트워크(generative adversarial network, GAN)입니다. 우리 지식范围内, 이는 4배 확대 비율에서 사진 같은 자연 이미지를 추론할 수 있는 첫 번째 프레임워크입니다. 이를 달성하기 위해 우리는 감각적 손실(perceptual loss function) 함수를 제안합니다. 이 함수는 적대적 손실(adversarial loss)과 콘텐츠 손실(content loss)으로 구성됩니다. 적대적 손실은 차별화 네트워크(discriminator network)를 사용하여 초해상화된 이미지와 원래 사진 같은 이미지를 구분하도록 훈련시켜 우리의 해법(solution)을 자연 이미지 다양체(natural image manifold)로 이동시키는 역할을 합니다. 또한, 픽셀 공간(pixel space)의 유사성보다는 감각적 유사성(perceptual similarity)에 기반한 콘텐츠 손실을 사용합니다.우리의 깊은 잔여 네트워크(deep residual network)는 공개 벤치마크(public benchmarks)에서 심하게 샘플링된 이미지들로부터 사진 같은 질감(photo-realistic textures)을 복원할 수 있습니다. 광범위한 평균 의견 점수(mean-opinion-score, MOS) 테스트 결과 SRGAN을 사용했을 때 감각적 품질(perceptual quality)이 크게 향상됨이 확인되었습니다. SRGAN으로 얻은 MOS 점수들은 어떤 최신 기술(state-of-the-art method)로 얻은 것보다 원래 고해상도 이미지(original high-resolution images)의 점수에 더 가까운 것으로 나타났습니다.