17일 전

복합적이고 실재적인 것을 연결하다: 엔드투엔드 딥 이미지 매팅을 향해

Jizhizi Li, Jing Zhang, Stephen J. Maybank, Dacheng Tao
복합적이고 실재적인 것을 연결하다: 엔드투엔드 딥 이미지 매팅을 향해
초록

자연 이미지에서 정확한 전경을 추출하는 것은 영화 제작, 증강 현실 등 다양한 후속 응용 분야에 큰 도움을 준다. 그러나 전경의 털기 특성과 다양한 외형(예: 동물 및 인물)은 기존의 마팅(마스크 생성) 기법이 트리맵(trimap)이나 스크리블(scribbles)과 같은 추가 사용자 입력을 요구하는 등 도전 과제를 제기한다. 이러한 문제를 해결하기 위해, 본 연구에서는 이미지 마팅에서 의미 정보(semantics)와 세부 정보(details)의 차별적 역할을 탐구하고, 이 작업을 두 가지 병렬 하위 작업—고수준 의미 분할과 저수준 세부 정보 마팅—으로 분해한다. 구체적으로, 공유 인코더와 두 개의 별도 디코더를 활용하여 양쪽 작업을 협업적으로 학습하는 새로운 'Glance and Focus Matting 네트워크(GFM)'를 제안한다. 이는 엔드 투 엔드 자연 이미지 마팅을 가능하게 한다. 또한, 마팅 작업에서 사용 가능한 자연 이미지의 제한성으로 인해 기존 방법들은 일반적으로 합성 이미지(composite images)를 학습 및 평가에 사용해 왔으나, 이는 실제 이미지에 대한 일반화 능력이 제한됨을 초래한다. 본 논문에서는 전경과 배경 이미지 간 다양한 차이점에 대한 체계적인 분석을 통해 합성 이미지와 실제 이미지 사이의 도메인 갭(domain gap) 문제를 철저히 조사한다. 그 결과, 전경과 배경 이미지 간의 차이를 최소화하도록 설계된 구성 경로(RSSN)가 뛰어난 일반화 능력을 갖춘 모델 개발에 기여함을 발견하였다. 더불어, 실제 이미지에서의 일반화 능력 평가를 위한 기준 테스트베드로 2,000장의 고해상도 동물 이미지와 10,000장의 인물 이미지, 그리고 수작업으로 라벨링된 알파 마스크(alpha mattes)를 포함한 벤치마크를 제시한다. 광범위한 실험적 연구를 통해 GFM이 최신 기법들을 능가하며 일반화 오차를 효과적으로 감소시킴을 입증하였다. 코드 및 데이터셋은 https://github.com/JizhiziLi/GFM 에 공개될 예정이다.

복합적이고 실재적인 것을 연결하다: 엔드투엔드 딥 이미지 매팅을 향해 | 최신 연구 논문 | HyperAI초신경