컨텍스트ual 리지듀얼 집약을 통한 초고해상도 이미지 복원

최근 데이터 기반 이미지 보정(이미지 인페인팅) 기법들은 놀라운 진전을 이뤘으며, 객체 제거 및 손상된 이미지 복구와 같은 핵심 이미지 편집 작업에 큰 영향을 미치고 있다. 이러한 기법들은 전통적인 접근법보다 훨씬 더 효과적이지만, 메모리 제약으로 인해 일반적으로 1K 이하의 저해상도 입력만 처리할 수 있다. 한편, 스마트폰 기기로 촬영되는 이미지의 해상도는 최대 8K에 이르고 있다. 기존의 저해상도 보정 결과를 단순히 업샘플링하는 방식은 크기는 커지지만 흐릿한 결과만을 제공한다. 그러나 흐릿한 대규모 이미지에 고주파 잔차 이미지를 더하면, 세부 구조와 질감이 풍부한 선명한 결과를 얻을 수 있다. 이러한 아이디어에 착안하여, 우리는 맥락적 패치들로부터 얻은 잔차들을 가중 평균하여 고주파 잔차를 생성하는 컨텍스트ual 리지드 아그리게이션(CRA) 메커니즘을 제안한다. 이를 통해 네트워크는 저해상도 예측만을 요구하며, 고해상도 입력을 직접 처리할 필요가 없다. 신경망의 합성곱 층은 저해상도 입력과 출력만을 처리하면 되므로, 메모리와 계산 자원의 소비가 효과적으로 억제된다. 또한 고해상도 학습 데이터셋의 필요성이 크게 줄어든다. 실험 결과, 본 연구에서 제안하는 모델은 해상도 512×512의 작은 이미지에서 학습한 후 고해상도 이미지에 대해 추론을 수행함으로써 뛰어난 보정 품질을 달성하였다. 제안된 모델은 이전의 학습 기반 접근법으로는 해결하기 어려운 8K 크기의 이미지, 특히 큰 구멍이 존재하는 경우에도 효과적으로 보정할 수 있다. 또한 네트워크 아키텍처의 경량 설계를 구체적으로 설명하며, GTX 1080 Ti GPU에서 2K 이미지에 대해 실시간 성능을 달성함을 보였다. 코드는 다음 주소에서 제공된다: Atlas200dk/sample-imageinpainting-HiFill.