
초록
본 논문에서는 스테레오 이미지에서 3D 객체 검출 문제를 연구하며, 이때 핵심적인 과제는 스테레오 정보를 효과적으로 활용하는 방법이다. 기존의 픽셀 레벨 깊이 맵을 사용하는 방법과 달리, 우리는 3D 앵커를 사용하여 스테레오 이미지 내 관심 영역 간의 객체 레벨 대응 관계를 명시적으로 구축하는 방안을 제안한다. 이를 통해 딥 뉴럴 네트워크가 3D 공간에서 목표 객체를 검출하고 삼각 측량할 수 있다. 또한, 표현 특성을 강화하고 노이즈 신호를 약화하여 학습 과정을 지원하기 위한 비용 효율적인 채널 재가중 전략을 소개한다. 이러한 모든 요소들은 단일 시점 이미지를 사용하는 견고한 베이스라인 검출기와 유연하게 통합된다. 우리는 KITTI 데이터셋에서 도전적인 3D 객체 검출 및 위치 결정 작업에서 단일 시점 베이스라인과 스테레오 삼각 측량 학습 네트워크가 기존 최신 기술들을 능가함을 보여준다.