
초록
우리는 자율 주행의 맥락에서 포인트 클라우드(point cloud)로부터 실시간 3D 객체 검출 문제를 다룹니다. 검출은 안전을 위한 필수 요소이므로 계산 속도가 매우 중요합니다. 그러나 기존 접근 방식들은 포인트 클라우드의 높은 차원성 때문에 계산 비용이 많이 들었습니다. 우리는 새롭게 제안하는 PIXOR을 통해 장면을 상부 시점(Bird's Eye View, BEV)으로 표현하여 3D 데이터를 보다 효율적으로 활용합니다. PIXOR은 제안 단계(proposal stage) 없이 한 단계로 이루어진 검출기로, 픽셀별 신경망 예측에서 해독된 방향성을 고려한 3D 객체 추정치를 출력합니다. 입력 표현, 네트워크 구조, 그리고 모델 최적화는 특히 높은 정확도와 실시간 효율성을 균형 있게 유지하기 위해 설계되었습니다. 우리는 KITTI BEV 객체 검출 벤치마크와 대규모 3D 차량 검출 벤치마크 두 가지 데이터셋에서 PIXOR을 검증하였습니다. 두 데이터셋 모두에서 제안된 검출기가 평균 정밀도(Average Precision, AP) 측면에서 다른 최신 방법들을 크게 능가하면서 여전히 28 FPS 이상의 속도로 실행됨을 보여주었습니다.