11일 전

ImVoxelNet: 단일 및 다중 뷰 일반 목적 3D 객체 탐지를 위한 이미지에서 복셀로의 투영

Danila Rukhovich, Anna Vorontsova, Anton Konushin
ImVoxelNet: 단일 및 다중 뷰 일반 목적 3D 객체 탐지를 위한 이미지에서 복셀로의 투영
초록

본 논문에서는 다중 시점 RGB 기반 3D 객체 탐지 문제를 엔드 투 엔드 최적화 문제로 제안한다. 이 문제를 해결하기 위해, 단안 또는 다중 시점 RGB 이미지를 기반으로 하는 새로운 완전 컨볼루션 기반 3D 객체 탐지 방법인 ImVoxelNet을 제안한다. 각 다중 시점 입력에서 포함된 단안 이미지의 수는 학습 및 추론 과정에서 변화할 수 있으며, 실제로 각 다중 시점 입력에 대해 서로 다른 수를 가질 수 있다. ImVoxelNet은 실내 및 실외 환경 모두를 효과적으로 처리할 수 있어 일반화 능력이 뛰어나다. 특히, 단안 입력을 받는 KITTI 데이터셋과 다중 시점 입력을 받는 nuScenes 데이터셋에서 RGB 이미지를 입력으로 사용하는 모든 방법 중 최고 성능을 기록하였으며, SUN RGB-D 데이터셋에서도 기존의 RGB 기반 3D 객체 탐지 방법들을 모두 능가한다. 또한, ScanNet 데이터셋에서는 다중 시점 3D 객체 탐지 분야에서 새로운 벤치마크를 설정하였다. 소스 코드 및 학습된 모델은 https://github.com/saic-vul/imvoxelnet 에서 공개되어 있다.

ImVoxelNet: 단일 및 다중 뷰 일반 목적 3D 객체 탐지를 위한 이미지에서 복셀로의 투영 | 최신 연구 논문 | HyperAI초신경