11일 전

다중 모달리티 융합을 통한 6-DoF 객체 자세 추정 향상: 층 간 및 모달 간 통합을 갖춘 하이브리드 CNN 아키텍처

{Qiang Zhang, Qing Ma, Hao Wei, Xueying Sun, Zihang Wang}
초록

최근 로봇 인식 작업 분야에서 RGB-D 데이터의 활용이 로봇공학 및 자율주행 분야에서 큰 관심을 끌고 있다. 그러나 이 분야에서 가장 두드러진 과제는 특징의 견고성(robustness)이 세그멘테이션 및 자세 추정 작업에 미치는 상당한 영향이다. 이러한 과제를 해결하기 위해, 우리는 세그멘테이션과 자세 추정을 연계하여 수행하는 혁신적인 이단계 하이브리드 컨볼루셔널 신경망(CNN) 아키텍처를 제안한다. 구체적으로 RGB와 깊이 모달리티 간의 보완적 정보를 활용하고, 네트워크의 다양한 계층에서 도출된 계층적 특징을 효과적으로 이용하기 위해, 크로스모달(Cross-Modal, CM) 및 크로스레이어(Cross-Layer, CL) 모듈을 개발하였다. CM과 CL의 통합 전략은 공간적 및 맥락적 정보를 효과적으로 포착함으로써 세그멘테이션 정확도를 크게 향상시켰다. 또한, 컨볼루셔널 블록 주의 모듈(Convolutional Block Attention Module, CBAM)을 도입하여 특징 맵을 동적으로 재조정함으로써, 네트워크가 정보가 풍부한 영역과 채널에 집중할 수 있도록 하여 자세 추정 작업의 전반적인 성능을 개선했다. 제안된 방법의 성능을 평가하기 위해 벤치마크 데이터셋에서 광범위한 실험을 수행한 결과, ADD-S AUC 지표를 사용한 평균 정확도가 94.5%에 달했으며, ADD-S 값이 2cm 미만인 경우 정확도는 97.6%에 달했다. 이러한 결과는 제안한 방법이 우수한 성능을 발휘함을 입증한다.

다중 모달리티 융합을 통한 6-DoF 객체 자세 추정 향상: 층 간 및 모달 간 통합을 갖춘 하이브리드 CNN 아키텍처 | 최신 연구 논문 | HyperAI초신경