2달 전

정확하고 실시간 3D 보행자 검출을 위한 효율적인 주의력 기둥 네트워크 활용

Le, Duy-Tho ; Shi, Hengcan ; Rezatofighi, Hamid ; Cai, Jianfei
정확하고 실시간 3D 보행자 검출을 위한 효율적인 주의력 기둥 네트워크 활용
초록

3D 포인트 클라우드 데이터에서 사람을 효율적이고 정확하게 감지는 로봇 기술과 자율 주행 차량 응용 분야에서 매우 중요합니다. 이 기본적인 인식 작업은 시간에 따른 인간의 자세와 제스처의 상당한 변형(i) 및 보행자 클래스 객체에 대한 포인트 클라우드의 희소성과 부족(ii)으로 인해 여전히 매우 어려운 문제입니다. 최근의 효율적인 3D 객체 감지 접근 방식은 포인트 클라우드 데이터에서 객체를 감지하기 위해 기둥 특징(pillar features)을 활용합니다. 그러나 이러한 기둥 특징은 위에서 언급한 모든 도전 과제를 해결하기 위한 충분한 표현력을 가지고 있지 않습니다.이 문제를 해결하기 위해, 우리는 먼저 기둥 특징 추출을 강화하고 동시에 포인트 클라우드의 노이즈를 억제하는 스택 가능한 기둥 인식 주의(Pillar Aware Attention, PAA) 모듈을 소개합니다. 다중 포인트 채널 풀링(multi-point-channel-pooling), 포인트-별, 채널-별, 그리고 작업-별 주의(point-wise, channel-wise, and task-aware attention)를 간단한 모듈로 통합함으로써, 표현 능력이 크게 향상되면서도 추가적인 컴퓨팅 자원이 거의 필요하지 않습니다. 또한, 우리는 소규모이지만 효과적인 특징 네트워크인 미니-바이디렉셔널 피쳐 피라미다 네트워크(Mini-BiFPN)를 제시합니다. 이 네트워크는 양방향 정보 흐름과 다수준 크로스 스케일 특징 융합을 통해 다양한 해상도의 특징을 더 잘 통합할 수 있습니다.우리가 제안한 프레임워크, 즉 PiFeNet은 KITTI, JRDB, nuScenes 등 세 가지 대규모 3D 보행자 검출 데이터셋에서 평가되었습니다. PiFeNet은 KITTI 버드아이뷰(Bird-eye-view, BEV)와 JRDB에서 최고 수준(state-of-the-art, SOTA)의 성능을 달성하였으며, nuScenes에서도 매우 경쟁력 있는 성능을 보였습니다. 우리의 접근 방식은 26 프레임 당 초(frame-per-second, FPS)의 추론 속도를 제공하여 실시간 검출기로 작동할 수 있습니다. PiFeNet 코드는 https://github.com/ldtho/PiFeNet에서 확인할 수 있습니다.

정확하고 실시간 3D 보행자 검출을 위한 효율적인 주의력 기둥 네트워크 활용 | 최신 연구 논문 | HyperAI초신경