LIGA-Stereo: LiDAR 기하학적 표현을 학습한 스테레오 기반 3D 검출기

스테레오 기반 3D 검출은 중간 깊이 맵 또는 암시적인 3D 기하학적 표현을 사용하여 스테레오 이미지에서 3D 객체 경계 상자를 검출하는 것을 목표로 합니다. 이 방법은 3D 인식에 대한 저렴한 솔루션을 제공하지만, LiDAR 기반 검출 알고리즘과 비교할 때 성능이 여전히 열위에 있습니다. 정확한 3D 경계 상자와 위치를 검출하기 위해 LiDAR 기반 모델은 LiDAR 포인트 클라우드에서 정확한 객체 경계와 표면 법선 방향을 인코딩할 수 있습니다. 그러나, 스테레오 매칭의 제약으로 인해 스테레오 기반 검출기의 검출 결과는 오류가 있는 깊이 특성에 쉽게 영향을 받습니다.이 문제를 해결하기 위해, 우리는 고급 기하학적 표현을 가진 LiDAR 기반 검출 모델의 지도 아래에서 스테레오 기반 3D 검출기를 학습하도록 하는 LIGA-Stereo (LiDAR Geometry Aware Stereo Detector)를 제안합니다. 또한, 우리는 기존의 복셀(Voxel) 기반 스테레오 검출기가 간접적인 3D 감독으로부터 의미론적 특성을 효과적으로 학습하지 못한다는 것을 발견했습니다. 이를 보완하기 위해, 직접적인 2D 의미론적 감독을 제공하기 위한 보조 2D 검출 헤드를 추가했습니다.실험 결과는 위의 두 전략이 기하학적 및 의미론적 표현 능력을 개선했다는 것을 보여주었습니다. 공식 KITTI 벤치마크에서 우리의 방법은 최신 스테레오 검출기와 비교하여 자동차, 보행자, 자전거 운전자의 3D 검출 성능을 각각 10.44%, 5.69%, 5.97% mAP(median Average Precision) 향상시켰습니다. 이러한 결과로, 스테레오 기반과 LiDAR 기반 3D 검출기 사이의 성능 차이는 더욱 좁아졌습니다.