
초록
이 논문에서는 RGB-D 장면 내 객체 주위에 3차원 경계 상자(3D bounding boxes)를 배치하는 기법을 제안한다. 본 연구에서 제안하는 접근법은 2차원 정보를 최대한 활용하여 3차원 공간 내 탐색 영역을 빠르게 축소함으로써 최신 2차원 객체 탐지 기법의 이점을 극대화한다. 이후 3차원 정보를 이용하여 객체 주위의 경계 상자의 방향, 위치 및 점수를 결정한다. 각 객체에 대해 독립적으로 방향을 추정하며, 이 과정에서 법선 정보(normals)를 활용하는 기존 기법을 사용한다. 3차원 공간 내 객체의 위치와 크기는 다층 퍼셉트론(Multilayer Perceptron, MLP)을 통해 학습한다. 마지막 단계에서는 장면 내 객체 간의 클래스 관계를 고려하여 탐지 결과를 보정한다. 잘 알려진 SUN RGB-D 데이터셋을 대상으로 실시한 광범위한 실험 결과, 본 연구에서 제안하는 방법은 거의 전적으로 희박한 3차원 도메인에서 작동하는 최신 탐지 기법들과 비교했을 때, 이미지당 4.1초의 빠른 처리 속도로 3차원 객체 탐지가 가능하며, 4.7배 느린 기법보다는 3 mAP 높은 성능을 달성했고, 두 자릿수 이상 느린 기법과도 유사한 성능을 보였다. 본 연구는 3차원 공간에서 2차원 기반의 객체 탐지 접근법이 더욱 심층적으로 탐구되어야 할 가능성을 시사하며, 특히 3차원 입력이 희박한 경우에 그 유용성이 더욱 두드러질 수 있음을 시사한다.