11일 전

ImGeoNet: 다중 뷰 3D 객체 탐지를 위한 이미지 유도형 기하학 인지 복셀 표현

Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun
ImGeoNet: 다중 뷰 3D 객체 탐지를 위한 이미지 유도형 기하학 인지 복셀 표현
초록

우리는 다중 시점 이미지 기반 3D 객체 탐지 프레임워크인 ImGeoNet을 제안한다. ImGeoNet은 이미지에 의해 유도되는 기하학적 인지(voxel) 표현을 통해 3D 공간을 모델링한다. 기존의 방법들이 기하학적 정보를 고려하지 않고 2D 특징을 3D 복셀(voxel)로 집계하는 반면, ImGeoNet은 다중 시점 이미지로부터 기하학적 구조를 유도함으로써 자유 공간(free space)의 복셀로 인한 혼란을 완화한다. 추론 단계에서는 다중 시점 이미지만이 필요하며, 복잡한 3D 데이터 또는 레이저 스캔 정보가 필요하지 않다. 또한, 본 연구에서 제안하는 표현 방식은 강력한 사전 훈련된 2D 특징 추출기(2D feature extractor)를 효과적으로 활용할 수 있어, 더 뛰어난 성능을 달성할 수 있다. ImGeoNet의 효과를 평가하기 위해 ARKitScenes, ScanNetV2, ScanNet200 세 가지 실내 데이터셋에서 정량적 및 정성적 실험을 수행하였다. 실험 결과, ImGeoNet은 모든 데이터셋에서 현재 최고 성능을 기록하는 다중 시점 이미지 기반 방법인 ImVoxelNet을 초월하는 탐지 정확도를 보였다. 특히, ImGeoNet은 100개의 시점 이미지를 사용하는 ImVoxelNet과 유사한 성능을 40개의 시점 이미지만으로 달성함으로써 뛰어난 데이터 효율성을 입증하였다. 더불어, 본 연구 결과는 제안된 이미지 유도 기하학적 인지 표현이 실용적 상황에서 이미지 기반 방법이 전통적인 포인트 클라우드 기반 방법인 VoteNet보다 뛰어난 탐지 정확도를 달성할 수 있음을 시사한다. 이는 두 가지 주요 상황에서 확인되었다: (1) 포인트 클라우드가 희박하고 노이즈가 많은 상황(예: ARKitScenes), 그리고 (2) 다양한 객체 클래스, 특히 소형 객체가 포함된 상황(예: ScanNet200).

ImGeoNet: 다중 뷰 3D 객체 탐지를 위한 이미지 유도형 기하학 인지 복셀 표현 | 최신 연구 논문 | HyperAI초신경