16일 전

피라미드 R-CNN: 3차원 객체 탐지의 더 나은 성능과 적응성 향상을 향해

Jiageng Mao, Minzhe Niu, Haoyue Bai, Xiaodan Liang, Hang Xu, Chunjing Xu
피라미드 R-CNN: 3차원 객체 탐지의 더 나은 성능과 적응성 향상을 향해
초록

우리는 포인트 클라우드로부터 2단계 3D 객체 탐지에 적합한 유연하고 고성능 프레임워크인 Pyramid R-CNN을 제안한다. 기존의 접근 방식은 주로 두 번째 단계에서 관심 영역(RoI) 특징 추출을 위해 관심 있는 포인트나 복셀에 의존하지만, 이러한 포인트들의 희소성과 비균일 분포를 효과적으로 처리하지 못하며, 이로 인해 멀리 떨어진 객체 탐지에 실패할 수 있다. 이러한 문제를 해결하기 위해, 희소한 관심 포인트로부터 특징을 적응적으로 학습할 수 있는 새로운 두 번째 단계 모듈인 피라미드 RoI 헤드를 제안한다. 피라미드 RoI 헤드는 세 가지 핵심 구성 요소로 구성된다. 첫째, 각 RoI에 대해 피라미드 방식으로 관심 포인트를 광범위하게 수집함으로써 희소성 문제를 완화하는 RoI-그리드 피라미드를 제안한다. 둘째, 기존의 주의 기반(attention-based) 및 그래프 기반(graph-based) 포인트 연산자를 통합한 일관된 수식으로 구성된 새로운 연산인 RoI-그리드 주의(RoI-grid Attention)를 제안한다. 이를 통해 희소한 포인트로부터 더 풍부한 정보를 인코딩할 수 있다. 셋째, RoI의 집중 범위를 동적으로 조정함으로써 다양한 포인트 밀도 수준에 적응할 수 있는 밀도 인지 반경 예측(Density-Aware Radius Prediction, DARP) 모듈을 제안한다. 이 세 가지 구성 요소를 결합함으로써, 본 연구의 피라미드 RoI 헤드는 희소하고 균형이 깨진 환경에서도 강건하며, 다양한 3D 백본(Backbone)에 적용 가능하여 일관되게 탐지 성능을 향상시킬 수 있다. 광범위한 실험 결과에 따르면, Pyramid R-CNN은 KITTI 데이터셋과 Waymo Open 데이터셋 모두에서 최첨단 3D 탐지 모델을 크게 앞지르는 성능을 보였다.

피라미드 R-CNN: 3차원 객체 탐지의 더 나은 성능과 적응성 향상을 향해 | 최신 연구 논문 | HyperAI초신경