18일 전

어텐션 유도형 계층적 구조 집약을 통한 이미지 매팅

{ Xiaopeng Wei, Qiang Zhang, Mingliang Xu, Dongsheng Zhou, Xin Yang, Yuhao Liu, Yu Qiao}
어텐션 유도형 계층적 구조 집약을 통한 이미지 매팅
초록

기존의 딥러닝 기반 마팅 알고리즘은 주로 알파 마팅의 전반적인 구조를 향상시키기 위해 고수준의 의미적 특징을 활용한다. 그러나 본 연구에서는 CNN에서 추출한 고급 의미 정보가 알파 인식에 비균형적으로 기여하며, 고수준의 의미 정보와 저수준의 외관 특징을 조화시켜 전경 세부 구조를 보다 정교하게 개선해야 한다고 주장한다. 본 논문에서는 단일 RGB 이미지를 입력으로 하여 추가적인 입력 없이 더 나은 알파 마팅 구조를 예측할 수 있는 엔드투엔드의 계층적 주의력 마팅 네트워크(HAttMatting)를 제안한다. 구체적으로, 공간적 및 채널별 주의력 메커니즘을 활용하여 외관 특징과 피라미드 구조의 특징을 새로운 방식으로 통합한다. 이 혼합 주의력 기반 메커니즘은 보다 정교한 경계와 적응형 의미 정보를 기반으로 알파 마팅을 인식할 수 있다. 또한, 구조적 유사도(SSIM), 평균 제곱 오차(MSE), 그리고 적대적 손실을 융합한 하이브리드 손실 함수를 도입하여 네트워크가 전경 구조의 전반적인 품질을 더욱 향상시키도록 유도한다. 더불어, 59,600장의 훈련 이미지와 1,000장의 테스트 이미지(총 646개의 서로 다른 전경 알파 마팅)로 구성된 대규모 이미지 마팅 데이터셋을 구축하여, 본 연구에서 제안한 계층적 구조 집계 모델의 강건성을 더욱 향상시켰다. 광범위한 실험 결과는 제안된 HAttMatting이 단일 RGB 이미지 입력으로도 복잡한 전경 구조를 효과적으로 포착하고, 기존 최고 수준의 성능을 달성함을 입증한다.