16일 전
만화 도메인에서 이미지 깊이 추정
Deblina Bhattacharjee, Martin Everaert, Mathieu Salzmann, Sabine Süsstrunk

초록
만화 이미지의 깊이를 추정하는 것은 다음과 같은 여러 도전 과제가 있기 때문에 어렵다. 첫째, 이러한 이미지는 단안(단일 카메라) 이미지이므로 깊이 정보가 제한적이다. 둘째, 실제 깊이 레이블(ground-truth depth annotations)이 부족하다. 셋째, 다양한 예술적 스타일 간에 이미지 특성이 크게 다르다. 넷째, 이미지가 희소하고 노이즈가 많다. 이러한 문제를 해결하기 위해, 우리는 기존의 사전 학습된 비지도 이미지-to-이미지 변환 기법을 활용하여 만화 이미지를 자연 이미지로 변환한 후, 주의 기반(attention-guided) 단안 깊이 추정기(depth estimator)를 사용하여 깊이를 예측한다. 이를 통해 기존의 자연 이미지에 존재하는 깊이 레이블을 활용하여 깊이 추정 모델을 학습할 수 있다. 또한, 본 모델은 만화 패널 내 텍스트와 이미지를 구분하는 능력을 학습함으로써, 깊이 추정 결과에서 텍스트 기반 아티팩트를 줄이는 데 기여한다. 제안하는 방법은 DCM 및 eBDtheque 데이터셋에서 모든 평가 지표에서 기존 최상의 기법들을 일관되게 상회한다. 마지막으로, 만화 이미지의 깊이 예측 성능을 평가하기 위한 새로운 데이터셋을 제안한다. 본 연구의 프로젝트 웹사이트는 https://github.com/IVRL/ComicsDepth 에서 확인할 수 있다.