17일 전

단일 이미지에서의 다중 수준 융합 기반 3D 객체 탐지

{Zhenzhong Chen, Bin Xu}
단일 이미지에서의 다중 수준 융합 기반 3D 객체 탐지
초록

본 논문에서는 단일 단안 이미지로부터 3차원 객체 탐지에 대한 엔드 투 엔드 딥 러닝 기반 프레임워크를 제안한다. 제안된 방법은 깊은 합성곱 신경망을 활용하여 2차원 및 3차원 객체 탐지를 동시에 수행한다. 먼저, 영역 제안 네트워크(Region Proposal Network)를 통해 2차원 영역 제안을 생성한다. 이후 제안 영역 내에서 공유된 특징을 학습하여 객체 클래스 확률, 2차원 경계상자, 방향성, 크기 및 3차원 위치를 예측한다. 별도의 모듈을 도입하여 시차(disparity)를 예측하고 계산된 포인트 클라우드에서 특징을 추출함으로써, 원본 이미지와 포인트 클라우드의 특징을 다양한 수준에서 융합하여 정밀한 3차원 위치 추정을 달성한다. 또한 추정된 시차는 전면 시점(feature) 인코딩에 활용되어 입력 이미지를 강화하며, 이를 입력 융합(input-fusion) 과정으로 간주할 수 있다. 제안된 알고리즘은 단일 RGB 이미지만을 입력으로 하여 엔드 투 엔드 방식으로 2차원 및 3차원 객체 탐지 결과를 직접 출력할 수 있다. 도전적인 KITTI 벤치마크에서의 실험 결과는, 단일 단안 이미지만을 사용함에도 불구하고 기존 최고 수준의 방법들을 상당히 초월함을 보여준다.

단일 이미지에서의 다중 수준 융합 기반 3D 객체 탐지 | 최신 연구 논문 | HyperAI초신경