이중 컨텍스트 집약을 통한 유니버설 이미지 매팅

자연 이미지 마팅(Natural image matting)은 주어진 이미지에서 전경의 알파 마트를 추정하는 것을 목표로 한다. 이 문제를 해결하기 위해 다양한 접근 방식이 탐구되어 왔으며, 클릭이나 트리마프(trimap)와 같은 가이던스를 활용하는 인터랙티브 마팅 방법과 특정 객체에 특화된 자동 마팅 방법이 있다. 그러나 기존의 마팅 기법들은 특정 객체나 가이던스에만 최적화되어 있어, 이미지 마팅에서 전역적 및 국소적 맥락을 통합하는 일반적인 요구사항을 간과하고 있다. 그 결과 이러한 방법들은 전경을 정확히 식별하거나 정밀한 경계를 생성하는 데 어려움을 겪으며, 예측할 수 없는 상황에서는 그 효과가 제한된다. 본 논문에서는 임의의 가이던스 또는 가이던스 없이도 강건한 이미지 마팅을 가능하게 하는 간단하고 보편적인 마팅 프레임워크인 이중 맥락 통합 마팅(Dual-Context Aggregation Matting, DCAM)을 제안한다. 구체적으로 DCAM은 입력 이미지와 가이던스로부터 저수준 특징과 맥락 특징을 추출하기 위해 의미론적 백본 네트워크를 사용한다. 그 후, 전역적 객체 통합기(global object aggregators)와 국소적 외관 통합기(local appearance aggregators)를 포함하는 이중 맥락 통합 네트워크를 도입하여 추출된 맥락 특징을 반복적으로 정제한다. 전역적 윤곽 세그멘테이션과 국소적 경계 정밀화를 동시에 수행함으로써, DCAM은 다양한 종류의 가이던스와 객체에 대해 강건함을 보여준다. 마지막으로, 저수준 특징과 정제된 맥락 특징을 융합하기 위해 마팅 디코더 네트워크를 사용하여 알파 마트를 추정한다. 다섯 개의 마팅 데이터셋에서 수행한 실험 결과에 따르면, 제안된 DCAM은 자동 마팅 및 인터랙티브 마팅 작업 모두에서 최신 기술(SOTA)을 초월하는 성능을 보이며, DCAM의 뛰어난 보편성과 높은 성능을 입증한다. 소스 코드는 \url{https://github.com/Windaway/DCAM}에서 공개되어 있다.