11일 전

일체형 스트림 네트워크를 통한 강건하고 실시간 RGB-D 주목할 만한 객체 탐지

Xiaoqi Zhao, Lihe Zhang, Youwei Pang, Huchuan Lu, Lei Zhang
일체형 스트림 네트워크를 통한 강건하고 실시간 RGB-D 주목할 만한 객체 탐지
초록

기존의 RGB-D 주목 객체 탐지(SOD) 기법들은 RGB 스트림과 깊이 스트림 간의 다중 모달 융합에 주로 초점을 맞추고 있다. 그러나 이러한 기법들은 깊이 맵 자체의 잠재적 영향력을 깊이 있게 탐색하지 못하고 있다. 본 연구에서는 RGB와 깊이 정보 간의 조기 융합 및 중간 융합을 직접 깊이 맵을 활용하여 수행할 수 있는 단일 스트림 네트워크를 설계하였다. 이로써 깊이 스트림의 특징 인코더를 제거함으로써 경량화되고 실시간 동작이 가능한 모델을 달성하였다. 우리는 깊이 정보를 두 가지 관점에서 전략적으로 활용하였다. (1) 모달 간의 큰 차이로 인해 발생하는 호환성 문제를 해결하기 위해 단일 스트림 인코더를 구축하여 조기 융합을 실현하였으며, 이는 ImageNet 사전 훈련된 백본 모델을 활용해 풍부하고 구분력 있는 특징을 효과적으로 추출할 수 있게 하였다. (2) 새로운 깊이 강화 이중 주의 메커니즘(DEDA)을 제안하여 전경 및 배경 분기(branch)에 공간적으로 필터링된 특징을 효율적으로 제공함으로써 디코더가 최적의 중간 융합을 수행할 수 있도록 하였다. 또한, 다양한 크기의 객체를 정확히 위치화하기 위해 피라미드형 주의 특징 추출 모듈(PAFE)을 도입하였다. 광범위한 실험 결과는 제안된 모델이 다양한 평가 지표 하에서 대부분의 최신 기술보다 우수한 성능을 보임을 입증하였다. 더불어, 현재 가장 경량화된 모델보다 무게가 55.5% 가볍고, 384×384 크기의 이미지를 처리할 때 실시간 속도 32 FPS로 작동함을 확인하였다.

일체형 스트림 네트워크를 통한 강건하고 실시간 RGB-D 주목할 만한 객체 탐지 | 최신 연구 논문 | HyperAI초신경