Command Palette
Search for a command to run...
Yifan Wang Yian Zhao Fanqi Pu Xiaochen Yang Yang Tang Xi Chen Wenming Yang

초록
기존의 단안 3D 감지기들은 일반적으로 3D 경계 상자에 대한 강한 비선형 회귀 문제를 해결하기 위해 분리된 예측 파라다임을 활용한다. 이 방법은 기하학적 중심, 깊이, 크기, 회전 각도 등의 속성을 각각 별도의 분기(branch)를 통해 추정한다. 비록 이러한 분리 전략은 학습 과정을 단순화하지만, 서로 다른 속성 간의 기하학적 상호작용 제약을 본질적으로 무시하게 되어 기하학적 일관성 사전 지식의 부재를 초래하며, 그 결과 최적의 성능을 달성하지 못한다. 이 문제를 해결하기 위해 우리는 두 가지 핵심 구성 요소를 갖춘 새로운 공간-투영 정렬(Spatial-Projection Alignment, SPAN)을 제안한다. (i) 공간점 정렬(Spatial Point Alignment)은 예측된 3D 경계 상자와 진짜값(Ground-truth) 3D 경계 상자 사이에 명시적인 전역 공간적 제약을 강제함으로써, 분리된 속성 회귀로 인한 공간적 편차를 보정한다. (ii) 3D-2D 투영 정렬(3D-2D Projection Alignment)은 3D 상자의 투영 결과가 이미지 평면상의 해당 2D 감지 경계 상자 내부에 밀접하게 정렬되도록 보장함으로써, 이전 연구에서 간과되었던 투영 불일치 문제를 완화한다. 학습 안정성을 확보하기 위해, 3D 속성 예측이 정교해짐에 따라 점진적으로 공간-투영 정렬을 도입하는 계층적 작업 학습(Hierarchical Task Learning) 전략도 도입하였다. 이는 초기 단계에서 속성 간 오류 전파를 방지한다. 광범위한 실험을 통해 제안된 방법이 기존의 어떤 단안 3D 감지기와도 간편하게 통합 가능하며, 뚜렷한 성능 향상을 제공함을 입증하였다.