17일 전
자연 이미지 마팅을 위한 디퓨전
Yihan Hu, Yiheng Lin, Wei Wang, Yao Zhao, Yunchao Wei, Humphrey Shi

초록
우리는 이미지 매트팅이라는 도전적인 과제를 해결하기 위해 확산( diffusion ) 기법을 활용하고자 한다. 그러나 높은 계산량 부담과 학습 과정과 추론 과정 간 노이즈 샘플링의 일관성 부족이 이 목표 달성에 큰 장애물이 되고 있다. 본 논문에서는 이러한 과제를 효과적으로 극복하기 위한 솔루션인 DiffMatte를 제안한다. 먼저, DiffMatte는 복잡하게 결합된 매트팅 네트워크 설계로부터 디코더를 분리함으로써, 확산 과정의 반복 단계에서 단 하나의 경량 디코더만을 사용한다. 이러한 전략을 통해 DiffMatte는 샘플 수가 증가함에 따라 계산량이 증가하는 문제를 완화한다. 둘째, 우리는 균일한 시간 간격을 가진 자기 정렬 학습 전략(self-aligned training strategy)을 도입하여, 전체 시간 영역에 걸쳐 학습과 추론 간 노이즈 샘플링의 일관성을 보장한다. DiffMatte는 유연성에 초점을 두고 설계되었으며, 다양한 최신 매트팅 아키텍처에 원활하게 통합될 수 있다. 광범위한 실험 결과는 DiffMatte가 Composition-1k 테스트 세트에서 최신 기술 수준에 도달했음을 입증하며, 과거 최고 성능을 기록한 방법들보다 SAD 지표에서 5%, MSE 지표에서 15% 우수한 성능을 보였으며, 다른 벤치마크에서도 더 강한 일반화 능력을 보여주었다.