
초록
시각 기반 인식과 추론은 모든 자율 시스템에서 장면 이해에 필수적이다. RGB 이미지와 깊이 이미지는 환경의 의미적 특성과 기하학적 특성을 동시에 포착하는 데 일반적으로 사용된다. 실세계 응용에서 노이즈가 심한 측정치가 자주 발생하므로, 이러한 데이터를 신뢰성 있게 해석할 수 있는 방법 개발이 매우 중요하다. 본 연구에서는 RGB-D 세그멘테이션 문제를 해결하기 위해 확산 기반 프레임워크를 제안한다. 또한, 깊이 이미지에서 특징을 추출하는 데 변형 가능한 주의 메커니즘을 갖춘 트랜스포머(Deformable Attention Transformer)를 사용함으로써, 깊이 측정치에서 발생하는 유효하지 않은 영역의 특징을 효과적으로 포착할 수 있음을 보여준다. 제안하는 생성형 프레임워크는 RGB-D 이미지의 내재된 분포를 더 잘 모델링할 수 있는 능력을 지니며, 판별형 방법에 비해 훨씬 적은 학습 시간으로 도전적인 시나리오에서도 견고한 성능을 달성한다. 실험 결과, 본 연구의 접근법은 일반적인 상황뿐 아니라, 특히 가장 어려운 이미지 데이터를 포함한 NYUv2 및 SUN-RGBD 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 본 연구의 프로젝트 페이지는 https://diffusionmms.github.io/ 에서 확인할 수 있다.