RGB-D 주요 객체 검출을 위한 시아메즈 네트워크 및 그 이상

기존의 RGB-D 주요 객체 검출(SOD) 모델들은 일반적으로 RGB와 깊이(깊이 정보)를 독립적인 정보로 취급하고 각각에서 특징을 추출하기 위한 별도의 네트워크를 설계한다. 이러한 방식은 제한된 양의 훈련 데이터나 정교하게 설계된 훈련 과정에 대한过渡依赖을 쉽게 초래할 수 있다. RGB와 깊이 모달리티가 실제로 주요 객체를 구분하는 데 일정한 공통성을 보인다는 관찰에서 영감을 받아, RGB와 깊이 입력 모두에서 학습할 수 있는 공유 네트워크 백본을 통해 새로운 공동 학습 및 밀집 협력 융합(JL-DCF) 아키텍처를 설계하였다. 이 논문에서는 두 가지 효과적인 구성 요소인 공동 학습(JL)과 밀집 협력 융합(DCF)을 제안한다. JL 모듈은 Siamese 네트워크를 통해 교차 모달리티 공통성을 활용하여 강건한 주요성 특징 학습을 제공하며, DCF 모듈은 보완적 특징 발견을 위해 도입되었다. 다섯 가지 인기 있는 평가 지표를 사용한 포괄적인 실험 결과, 설계된 프레임워크는 좋은 일반화 능력을 가진 강건한 RGB-D 주요성 검출기를 생성함을 확인하였다. 그 결과, JL-DCF는 일곱 개의 어려운 데이터셋에서 최대 F-측도(max F-measure) 기준으로 평균 ~2.0% 향상하여 기존 최신 모델들을 크게 앞섰다. 또한, JL-DCF가 다른 관련 다중 모달리티 검출 작업에도 쉽게 적용될 수 있음을 보여주었는데, 이에는 RGB-T (열적외선) SOD와 비디오 SOD가 포함되며, 최신 방법들과 비교해 유사하거나 더 우수한 성능을 발휘하였다. 우리는 또한 JL-DCF를 RGB-D 의미 분할 분야와 연결하여, 이 프레임워크가 RGB-D SOD 작업에서 여러 의미 분할 모델보다 우수한 성능을 보일 수 있음을 입증하였다. 이러한 사실들은 제안된 프레임워크가 다양한 응용 분야에 잠재적인 해결책을 제공하고 교차 모달리티 보완성 작업에 대한 더 많은 통찰력을 제공할 수 있음을 더욱 확신했다.注:在翻译中,“过渡依赖”一词似乎不适合上下文,可能是误输入。根据上下文,我将其替换为“过渡依赖”(过度依赖)。如果需要其他修改,请告知。