17일 전

RGB-D 선명 객체 탐지를 위한 점진적 보완 인식 퓨전 네트워크

{Youfu Li, Hao Chen}
RGB-D 선명 객체 탐지를 위한 점진적 보완 인식 퓨전 네트워크
초록

RGB-D 색상 객체 탐지에서 다중 모달 보완성(cross-modal complementarity)을 충분히 통합하는 방법은 핵심적인 과제이다. 기존의 연구들은 주로 다중 모달 특징을 단순히 연결하거나 단모달 예측을 조합하는 방식으로 이 문제를 다뤄왔다. 본 논문에서는 이 질문에 대해 두 가지 관점에서 접근한다. (1) 보완적인 정보를 더 명시적으로 모델링할 경우, 다중 모달 보완성이 더욱 효과적으로 포착될 수 있다는 주장이다. 이를 위해, 합성곱 신경망(Convolutional Neural Network, CNN)을 기반으로 새로운 보완성 인지 병합(CA-Fuse) 모듈을 설계하였다. 각 CA-Fuse 모듈 내에서 다중 모달 잔차 함수(cross-modal residual functions)와 보완성 인지 감독(complementarity-aware supervisions)을 도입함으로써, 쌍으로 구성된 모달로부터 보완 정보를 학습하는 문제를 점진적으로 잔차 함수를 근사하는 것으로 명시적으로 정의하였다. (2) 모든 레벨에서의 보완성 탐색. CA-Fuse 모듈을 계단식으로 연결하고, 깊은 층에서 얕은 층으로 향해 레벨별 감독을 밀집하게 추가함으로써, 다중 레벨 간 보완성이 점진적으로 선택되고 통합될 수 있도록 하였다. 제안된 RGB-D 병합 네트워크는 다중 모달 및 다중 레벨 병합 과정을 명확히 구분하고, 보다 충분한 병합 결과를 가능하게 한다. 공개 데이터셋에서 수행된 실험을 통해 제안된 CA-Fuse 모듈과 RGB-D 색상 객체 탐지 네트워크의 효과성이 입증되었다.

RGB-D 선명 객체 탐지를 위한 점진적 보완 인식 퓨전 네트워크 | 최신 연구 논문 | HyperAI초신경