
초록
저비용 자율 에이전트, 특히 자율 주행 차량은 주변 환경을 인지하기 위해 주로 단안 3차원 객체 탐지 기법을 채택한다. 본 논문에서는 후속 작업을 위한 중간 3차원 특징을 생성하는 3차원 중간 표현 방법을 연구한다. 예를 들어, 이러한 3차원 특징은 탐지 외에도 Birds-Eye-View(BEV) 특징 표현이 요구되는 엔드투엔드 예측 및/또는 계획 작업의 입력으로 활용될 수 있다. 본 연구에서 우리는 기존의 3차원 표현 생성 방법이 잠재 공간에서 객체의 암묵적 자세(특히 방향성)와 유클리드 공간에서 명시적으로 관측된 자세 간의 일관성을 유지하지 못한다는 점을 발견하였다. 이는 모델 성능에 상당한 영향을 미칠 수 있다. 이를 해결하기 위해, 우리는 암묵적 특징과 명시적 특징 간의 자세 일관성을 의도적으로 보장하기 위해 자세에 주목하는 최초의 단안 탐지 방법을 제안한다. 또한, 이미지 특징을 정확한 3차원 위치에 효율적으로 복셀(Voxel)로 변환하기 위한 로컬 레이 어텐션 메커니즘을 도입한다. 세 번째로, 연속성을 유지하면서 사인 함수 인코딩보다 우수한 성능을 보이는 수작업으로 설계된 가우시안 위치 인코딩 함수를 제안한다. 실험 결과, 제안한 방법은 기존 최고 성능의 3차원 중간 표현 방법보다 3.15% 향상된 성능을 달성하였다. 제출 시점 기준 KITTI 리더보드에서 단안 탐지 방법 중 3차원 탐지 및 BEV 탐지 벤치마크 모두에서 1위를 기록하였다.