16일 전

RGB-D 색각 명시적 객체 탐지를 위한 다중 모달 가중치 네트워크

Gongyang Li, Zhi Liu, Linwei Ye, Yang Wang, Haibin Ling
RGB-D 색각 명시적 객체 탐지를 위한 다중 모달 가중치 네트워크
초록

심도 맵은 주목할 만한 객체 탐지(Salient Object Detection, SOD)를 지원하는 기하학적 단서를 포함하고 있다. 본 논문에서는 RGB와 심도 채널 간의 종합적인 상호작용을 유도하기 위한 새로운 다중 모달 가중 전략(Cross-Modal Weighting, CMW)을 제안한다. 구체적으로, 저수준, 중간 수준, 고수준의 다중 모달 정보 융합을 각각 처리하기 위해 CMW-L, CMW-M, CMW-H 세 가지 RGB-심도 상호작용 모듈을 개발하였다. 이들 모듈은 심도에서 RGB로의 가중(Depth-to-RGB Weighing, DW)과 RGB에서 RGB로의 가중(RGB-to-RGB Weighting, RW)을 활용하여, 다양한 네트워크 블록에 의해 생성된 특징층 간에 풍부한 다중 모달 및 다중 스케일 상호작용을 가능하게 한다. 제안된 다중 모달 가중 네트워크(CMWNet)를 효과적으로 학습하기 위해, 다양한 스케일에서의 중간 예측값과 진짜값 사이의 오차를 종합적으로 요약하는 복합 손실 함수를 설계하였다. 이러한 모든 새로운 구성 요소들이 함께 작동함으로써, CMWNet은 RGB 채널과 심도 채널의 정보를 효과적으로 융합하며, 동시에 다양한 스케일에서 객체의 위치 및 세부 정보를 탐색할 수 있다. 철저한 평가 결과, CMWNet은 7개의 대표적인 벤치마크에서 15개의 최신 RGB-D SOD 방법보다 일관되게 우수한 성능을 보였다.

RGB-D 색각 명시적 객체 탐지를 위한 다중 모달 가중치 네트워크 | 최신 연구 논문 | HyperAI초신경