세마틱 인간 마팅을 위한 거친 애너테이션 강화

세밀한 인간 마팅(semantic human matting)은 전역 인간 영역의 각 픽셀에 대한 불투명도(opacity)를 추정하는 것을 목표로 한다. 이 작업은 매우 도전적이며, 일반적으로 사용자 상호작용을 통한 트라이맵(trimaps)과 풍부한 고품질의 레이블 데이터가 필요하다. 이러한 데이터를 레이블링하는 것은 인력이 많이 들며, 특히 인간의 매우 세밀한 헤어 부분을 고려할 때 평범한 사용자 이상의 전문 기술이 요구된다. 반면에, 대략적인 레이블링을 적용한 인간 데이터셋은 공개 데이터셋에서 비교적 쉽게 확보할 수 있다. 본 논문에서는 트라이맵을 추가 입력으로 사용하지 않고도 엔드투엔드(end-to-end) 세밀한 인간 마팅 성능을 향상시키기 위해, 대략적인 레이블링 데이터와 세밀한 레이블링 데이터를 결합하는 방법을 제안한다. 구체적으로, 하이브리드 데이터를 활용하여 대략적인 의미적 마스크를 추정하는 마스크 예측 네트워크를 학습하고, 이전에 생성된 대략적인 마스크 출력의 품질을 통일하는 품질 통일 네트워크를 제안한다. 이후, 통일된 마스크와 입력 이미지를 입력으로 받아 최종 알파 마트(α matte)를 예측하는 마팅 정밀화 네트워크를 설계한다. 수집한 대략적인 레이블링 데이터셋은 본 연구의 데이터셋을 크게 풍부하게 하며, 실제 이미지에 대해 고품질의 알파 마트를 생성할 수 있도록 한다. 실험 결과, 제안하는 방법은 최신 기술 대비 유사한 성능을 보였다. 또한 본 방법은 대략적인 레이블링된 공개 데이터셋의 정밀화뿐만 아니라 의미 분할(semantic segmentation) 방법의 개선에도 활용 가능하여, 고품질 인간 데이터 레이블링에 드는 비용을 크게 절감할 수 있다.