9일 전

고해상도 이미지 보정을 위한 집계된 문맥 변환

Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo
고해상도 이미지 보정을 위한 집계된 문맥 변환
초록

최신 이미지 보정 기법들은 고해상도 이미지(예: 512x512)에서 왜곡된 구조와 흐릿한 질감을 생성하는 문제가 존재한다. 이러한 문제의 주요 원인은 (1) 멀리 떨어진 맥락 정보로부터 이미지 내용을 추론하는 데 어려움이 있으며, (2) 큰 누락 영역에 대해 미세한 질감을 정교하게 재구성하는 데에 있다. 이러한 두 가지 과제를 극복하기 위해, 고해상도 이미지 보정을 위한 개선된 GAN 기반 모델인 Aggregated COntextual-Transformation GAN(AOT-GAN)을 제안한다. 구체적으로, 맥락 추론 능력을 향상시키기 위해 AOT-GAN의 생성기(generator)를 제안한 AOT 블록을 다수 쌓아 구성한다. AOT 블록은 다양한 수용 영역(receptive fields)에서의 맥락 변환을 집계함으로써, 정보가 풍부한 멀리 떨어진 이미지 맥락과 맥락 추론에 유용한 풍부한 패턴을 동시에 포착할 수 있도록 한다. 질감 재구성 성능을 향상시키기 위해, AOT-GAN의 판별기(discriminator)를 맞춤형 마스크 예측 작업(mask-prediction task)으로 훈련시킨다. 이 훈련 목표는 실제 패치와 생성된 패치의 세부적인 외관을 구분하도록 판별기를 유도하며, 결과적으로 생성기가 명확한 질감을 생성하도록 유도한다. 180만 개의 고해상도 이미지와 365개의 복잡한 장면을 포함하는 가장 도전적인 벤치마크인 Places2에서 실시한 광범위한 비교 실험 결과, AOT-GAN은 FID 지표에서 기존 최고 성능 모델 대비 38.60%의 상대적 개선을 기록하며 상당한 성능 향상을 보였다. 30명 이상의 사용자 참여를 포함한 사용자 연구 또한 AOT-GAN의 우수성을 추가로 검증하였다. 또한, 로고 제거, 얼굴 편집, 객체 제거와 같은 실제 응용 사례에서 제안된 AOT-GAN의 성능을 평가한 결과, 현실 세계에서도 탁월한 보정 결과를 얻을 수 있음을 확인하였다. 코드와 모델은 https://github.com/researchmm/AOT-GAN-for-Inpainting 에서 공개한다.