보행자 검출이 다중 모달 학습과 만나다: 일반 모델 및 벤치마크 데이터셋

최근 몇 년 동안 다양한 센서 모달리티(RGB, 적외선, 깊이, LiDAR, 이벤트)의 장점을 활용한 보행자 검출에 대한 연구 관심이 증가하고 있습니다. 그러나 다양한 센서 모달리티를 효과적으로 처리할 수 있는 통합된 일반 모델을 설계하는 것은 여전히 도전적인 과제입니다. 본 논문에서는 다중모달 인식을 위한 새로운 일반 모델인 MMPedestron을 소개합니다. 기존의 특정 모달리티 입력 또는 특정 모달리티 쌍만 처리하는 전문 모델과 달리, MMPedestron은 여러 개의 모달 입력과 그 동적 조합을 처리할 수 있습니다. 제안된 접근 방식은 모달 표현 및 융합을 위한 통합 인코더와 보행자 검출을 위한 일반 헤드로 구성됩니다. 또한, 적응형 다중모달 특성 융합을 위해 두 개의 추가 학습 가능한 토큰인 MAA와 MAF를 도입합니다. 더불어, RGB, 적외선, 깊이, LiDAR, 이벤트 데이터 등 다양한 센서 모달리티를 포함하는 첫 번째 대규모 벤치마크 데이터셋인 MMPD 데이터셋을 구축했습니다. 이 벤치마크는 기존 공개 데이터셋과 새로 수집한 EventPed 데이터셋을 통합하여 구성되었습니다. 다중모달 공동 학습을 통해 우리의 모델은 다양한 보행자 검출 벤치마크에서 최고 수준의 성능을 달성하며, 특정 센서 모달리티에 맞춤화된 선도적인 모델들을 능가합니다. 예를 들어, COCO-Persons에서 71.1 AP(AP: Average Precision), LLVIP에서 72.6 AP를 달성했습니다. 특히 CrowdHuman에서 InternImage-H 모델보다 30배 작은 파라미터로 유사한 성능을 보여주었습니다. 코드와 데이터는 https://github.com/BubblyYi/MMPedestron에서 제공됩니다.