
초록
이미지를 어떻게 표현할 수 있을까? 시각 세계는 연속적인 방식으로 나타나지만, 기계는 이미지를 2차원 픽셀 배열의 이산적인 형태로 저장하고 처리한다. 본 논문에서는 이미지에 대한 연속적 표현을 학습하는 것을 목표로 한다. 최근 음성 신경 표현을 활용한 3차원 재구성 기술의 발전에 영감을 받아, 로컬 음성 이미지 함수(Local Implicit Image Function, LIIF)를 제안한다. LIIF는 이미지의 좌표와 해당 좌표 주변의 2차원 깊은 특징(2D deep features)을 입력으로 받아, 주어진 좌표에서의 RGB 값을 출력으로 예측한다. 좌표가 연속적이므로, LIIF는 임의의 해상도로 표현될 수 있다. 이미지의 연속적 표현을 생성하기 위해, 초해상도(super-resolution)를 위한 자기지도 학습(self-supervised task)을 통해 LIIF 표현과 함께 인코더를 학습시킨다. 학습된 연속적 표현은 학습 과제에서 제공되지 않은 해상도까지 최대 30배 높은 해상도로 외삽(extrapolate) 가능하다. 또한, LIIF 표현이 2차원 공간에서 이산적 표현과 연속적 표현 사이의 다리를 구축함을 보여주며, 크기가 다른 이미지 지표(ground-truth)를 가진 학습 작업을 자연스럽게 지원하고, 지표를 리사이징하는 기존 방법에 비해 훨씬 우수한 성능을 발휘함을 입증한다.