3D 컨볼루션 신경망을 활용한 RGB-D 명시적 객체 탐지

RGB-D 주목 객체 탐지(SOD)는 최근 연구 관심이 점점 증가하고 있으며, 인코더-디코더 아키텍처 기반의 많은 딥러닝 방법들이 등장하고 있다. 그러나 기존의 대부분의 RGB-D SOD 모델들은 특징 융합을 단일 인코더 또는 디코더 단계에서 수행하며, 이는 충분한 다중 모달 융합 능력을 보장하지 못한다. 본 논문에서는 RGB-D SOD 문제를 3차원 합성곱 신경망을 통해 처음으로 다루는 시도를 한다. 제안하는 모델인 RD3D는 인코더 단계에서 사전 융합(pre-fusion)을 수행하고, 디코더 단계에서 심층적인 특징 융합을 통해 RGB와 깊이 스트림 간의 효율적인 통합을 촉진하는 것을 목표로 한다. 구체적으로, RD3D는 팽창된 3D 인코더를 통해 RGB와 깊이 모달 간의 사전 융합을 수행하고, 3D 합성곱의 광범위한 집계 능력을 활용하기 위해 풍부한 역전파 경로(RBPP, Rich Back-Projection Paths)를 갖춘 3D 디코더를 설계하여 심층적 특징 융합을 실현한다. 인코더와 디코더를 모두 포함하는 점진적 융합 전략을 통해 두 모달 간의 효과적이고 철저한 상호작용을 실현할 수 있으며, 이는 탐지 정확도를 향상시킨다. 여섯 개의 널리 사용되는 벤치마크 데이터셋에서 수행된 광범위한 실험 결과, RD3D는 네 가지 주요 평가 지표에서 14개의 최신 SOTA(SOTA, State-of-the-Art) RGB-D SOD 방법들과 비교하여 우수한 성능을 보였다. 본 연구의 코드는 공개될 예정이며, GitHub에서 확인 가능하다: https://github.com/PPOLYpubki/RD3D.