2달 전
RTM3D: 객체 키포인트를 활용한 실시간 단일 카메라 3D 탐지 기술 자율 주행용
Peixuan Li; Huaici Zhao; Pengfei Liu; Feidao Cao

초록
본 연구에서는 단일 샷에서 효율적이고 정확한 단일 카메라 기반 3D 감지 프레임워크를 제안합니다. 대부분의 성공적인 3D 감지기들은 3D 바운딩 박스에서 2D 박스로의 투영 제약을 중요한 구성 요소로 취급합니다. 2D 박스의 네 개의 가장자리는 단지 네 가지 제약 조건만을 제공하며, 2D 감지기에 작은 오차가 있어도 성능이 급격히 저하됩니다. 이러한 접근법과는 달리, 우리의 방법은 이미지 공간에서 3D 바운딩 박스의 아홉 개 시점 특징점을 예측하고, 이어서 3D와 2D 시점 간의 기하학적 관계를 활용하여 3D 공간에서의 크기, 위치 및 방향성을 복원합니다. 이 방법을 통해 특징점 추정이 매우 노이즈가 심해도 객체의 속성을 안정적으로 예측할 수 있으며, 이는 작은 구조에서도 빠른 감지 속도를 얻을 수 있게 합니다. 우리의 방법은 객체의 3D 속성만을 사용하여 학습되며 외부 네트워크나 감독 데이터 없이도 가능합니다. 본 연구는 KITTI 벤치마크에서 최고 수준의 성능을 달성하면서 단일 카메라 이미지에 대한 실시간 3D 감지를 위한 첫 번째 시스템입니다. 코드는 https://github.com/Banconxuan/RTM3D 에서 공개될 예정입니다.