
초록
스테레오 카메라를 이용한 3D 객체 검출은 컴퓨터 비전 분야에서 중요한 문제이며, 특히 LiDAR가 없는 저렴한 자율 이동 로봇에 있어서는 매우 중요합니다.현재 가장 성능이 우수한 스테레오 3D 객체 검출 프레임워크들은 대부분 시차 추정을 통한 밀도 높은 깊이 재구성에 기반하고 있어, 이로 인해 계산 비용이 매우 높아집니다.실세계에서 양안 이미지를 사용한 비전 검출의 배포를 가능하게 하기 위해, 우리는 2D 이미지 기반 객체 검출 프레임워크에서 통찰력을 얻고 이를 스테레오 특징으로 강화하는 방법을 탐색합니다.우리는 실시간 단일 단계 2D/3D 객체 검출기의 지식과 추론 구조를 통합하고, 경량화된 스테레오 매칭 모듈을 도입하였습니다.제안된 프레임워크인 YOLOStereo3D는 단일 GPU에서 훈련되며, 초당 10프레임 이상의 속도로 실행됩니다. LiDAR 데이터를 사용하지 않음에도 불구하고, 이 프레임워크는 최신 스테레오 3D 검출 프레임워크와 비교할 수 있는 성능을 보여줍니다. 코드는 https://github.com/Owen-Liuyuxuan/visualDet3D 에서 공개될 예정입니다.