
초록
심층 정보 없이 단일 이미지에서 3D 객체를 정밀하게 위치 파악하는 것은 매우 도전적인 문제이다. 기존의 대부분의 방법들은 객체들의 다양한 분포에 관계없이 동일한 접근 방식을 사용하기 때문에, 잘리거나 부분적으로 보이는 객체에 대해 성능이 제한된다. 본 논문에서는 단일 이미지 기반 3D 객체 탐지에 대해 유연한 프레임워크를 제안한다. 이 프레임워크는 잘리거나 부분적으로 보이는 객체를 명시적으로 분리하고, 객체의 깊이 추정을 위해 다양한 접근 방식을 적응적으로 결합한다. 구체적으로, 정상적인 객체의 최적화에 영향을 주지 않도록, 긴 꼬리 분포를 가진 잘린 객체를 위한 특징 맵의 경계를 분리하여 처리한다. 또한, 객체의 깊이 추정을 서로 다른 키포인트 그룹으로부터 해결된 깊이와 직접 회귀된 깊이의 불확실성 유도형 앙상블로 설정한다. 실험 결과, KITTI 벤치마크의 테스트 세트에서 본 방법은 중간 수준에서 기존 최고 성능 방법 대비 약 27%, 어려운 수준에서는 약 30% 향상된 성능을 보였으며, 동시에 실시간 처리 효율성을 유지한다. 코드는 \url{https://github.com/zhangyp15/MonoFlex} 에 공개될 예정이다.