11일 전

3D 싱글샷 객체 탐지를 위한 생성형 스파스 탐지 네트워크

JunYoung Gwak, Christopher Choy, Silvio Savarese
3D 싱글샷 객체 탐지를 위한 생성형 스파스 탐지 네트워크
초록

3D 객체 탐지는 로봇공학 및 증강현실과 같은 다양한 전망 있는 분야에 응용 가능성이 높아 널리 연구되고 있다. 그러나 3D 데이터의 희소성은 이 작업에 고유한 도전 과제를 야기한다. 특히 두드러진 문제는 3D 포인트 클라우드의 관측 가능한 표면이 객체 인스턴스의 중심과 분리되어 있어 경계 상자 예측을 기반으로 하기 어렵다는 점이다. 이를 해결하기 위해 우리는 전면 컨볼루션(single-shot) 희소 탐지 네트워크인 생성적 희소 탐지 네트워크(GSDN)를 제안한다. 이 모델은 객체 후보를 효율적으로 생성하는 데 핵심적인 역할을 하는 생성적 희소 텐서 디코더를 포함한다. 본 모델의 핵심 구성 요소인 생성적 희소 텐서 디코더는 역컨볼루션(Transpose Convolution)과 가지치기(Pruning) 계층을 차례로 활용하여 희소 텐서의 지원 영역을 확장하면서도 불가능한 객체 중심을 제거함으로써 최소한의 실행 시간과 메모리 사용량을 유지한다. GSDN은 단일 전면 컨볼루션 전방 전파(fully-convolutional feed-forward pass)를 통해 전례 없이 대규모 입력을 처리할 수 있어, 이전의 다른 방법들이 사용했던 슬라이딩 윈도우로부터의 결과를 수작업으로 조합하는 히우리스틱 후처리 단계가 필요하지 않다. 제안된 방법은 3D 실내 데이터셋 3종(대규모 3D 실내 재구성 데이터셋 포함)에서 검증되었으며, 특히 대규모 3D 실내 재구성 데이터셋에서 최신 기술 대비 상대적인 성능 향상 7.14%를 달성하면서도, 기존 최고 성능 모델보다 3.78배 빠른 속도를 기록하였다.

3D 싱글샷 객체 탐지를 위한 생성형 스파스 탐지 네트워크 | 최신 연구 논문 | HyperAI초신경