JRMOT: 실시간 3차원 다중 객체 추적기 및 새로운 대규모 데이터셋

자율적으로 탐색하는 로봇은 주변 환경의 물체 및 기타 에이전트의 운동을 인식하고 추적할 수 있어야 하며, 이를 통해 안정적이고 안전한 경로 계획 및 실행이 가능해집니다. 이러한 과정을 용이하게 하기 위해 운동 정보는 3차원 카르테시안 공간에서 인식되어야 합니다. 그러나 최근의 다중 객체 추적(MOT) 연구 대부분은 2차원 RGB 영상 시퀀스에서 사람과 움직이는 물체를 추적하는 데 집중되어 왔습니다. 본 연구에서는 RGB 이미지와 3차원 포인트 클라우드의 정보를 통합하여 실시간으로 최고 수준의 추적 성능을 달성하는 새로운 3차원 MOT 시스템인 JRMOT을 제안합니다. 본 시스템은 최근의 재식별(neural networks for re-identification), 2차원 및 3차원 감지, 트랙 설명을 위한 신경망을 활용하며, 다중 모달(recursive Kalman) 아키텍처 내에서 통합된 공동 확률적 데이터 연결 프레임워크에 통합되어 구현되었습니다. 본 연구의 일환으로, 54개의 실내 및 실외 장면에서 200만 개 이상의 박스와 3,500개의 시간적으로 일관된 2D+3D 트랙이 레이블링된 새로운 대규모 2D+3D 데이터셋 및 벤치마크인 JRDB를 공개합니다. JRDB는 60분 이상의 데이터를 포함하며, 사회적 환경에서 촬영된 360도 원통형 RGB 영상과 3차원 포인트 클라우드를 제공하여 JRMOT의 개발, 학습 및 평가에 활용되었습니다. 제시된 3차원 MOT 시스템은 대표적인 2차원 추적 벤치마크인 KITTI에서 경쟁 기법들과 비교해 최고 수준의 성능을 보여주며, 본 연구 벤치마크에 대한 최초의 3차원 추적 솔루션으로서의 의의를 갖습니다. 사회적 로봇 JackRabbot을 대상으로 실시한 실제 로봇 테스트 결과, 본 시스템은 다수의 보행자를 빠르고 신뢰성 있게 추적할 수 있음을 입증하였습니다. 본 추적기의 ROS 코드는 https://sites.google.com/view/jrmot 에서 제공됩니다.