초록
인스턴스 세그멘테이션과 객체 탐지는 컴퓨터 비전 및 로봇 공학 분야에서 중요한 문제들이다. 본 연구에서는 이러한 문제들을 해결하기 위해 새로운 객체 세그멘테이션 및 탐지 시스템을 제안한다. 먼저, RGB 이미지, 깊이 이미지 또는 RGB-D 이미지를 기반으로 2차원 객체를 탐지한다. 이를 위해 2차원 탐지 결과로부터 프루스텀(frustum)을 생성하고, 각 프루스텀에 대해 3차원 후보 복셀 이미지를 제안하는 3차원 컨볼루션 기반 시스템인 Frustum VoxNet을 제안한다. 이후 이 후보 복셀 이미지를 기반으로 3차원 컨볼루션 신경망(3D CNN)을 활용하여 3차원 인스턴스 세그멘테이션과 객체 탐지를 수행한다. SUN RGB-D 데이터셋에서의 실험 결과, 제안하는 RGB-D 기반 시스템은 최첨단 기법들에 비해 3차원 추론 속도가 훨씬 빠르면서도 정확도 손실이 거의 없음을 확인하였다. 동시에, 깊이 이미지만을 사용하는 경우에도 RGB-D 기반 시스템과 유사한 정확도를 달성할 수 있어, 저조도 환경이나 RGB 이미지를 캡처하지 못하는 센서 환경에서도 효과적으로 작동할 수 있다는 점에서 중요한 의미를 지닌다. 마지막으로, 본 연구의 파이프라인에 세그멘테이션을 통합함으로써 탐지 정확도를 향상시킬 수 있으며, 동시에 3차원 인스턴스 세그멘테이션 결과를 제공할 수 있다.