
초록
우리는 상품용 RGB-D 스캔에서 3D 의미 인스턴스 분할을 위한 새로운 신경망 구조인 3D-SIS를 소개합니다. 우리 방법의 핵심 아이디어는 기하학적 신호와 색상 신호 모두에서 공동으로 학습하는 것이며, 이로써 정확한 인스턴스 예측이 가능해집니다. 단순히 2D 프레임만을 사용하는 대신, 대부분의 컴퓨터 비전 응용 프로그램이 다중 뷰 RGB-D 입력을 제공할 수 있다는 점에 주목하여, 이러한 다중 모달 입력을 효과적으로 융합하는 3D 인스턴스 분할 접근법을 제안합니다. 우리의 네트워크는 3D 재구성의 포즈 정렬에 따라 2D 이미지를 체적 그리드에 연관시키면서 고해상도 RGB 입력을 활용합니다. 각 이미지에 대해 먼저 일련의 2D 컨볼루션을 통해 각 픽셀의 2D 특징을 추출한 후, 결과 특징 벡터를 3D 그리드의 관련 복셀로 역투영합니다. 이러한 2D와 3D 특징 학습의 조합은 최신 대안들보다 훨씬 더 높은 정확도의 객체 검출과 인스턴스 분할을 가능하게 합니다. 우리는 합성 데이터와 실제 세계 공개 벤치마크에서 결과를 보여주며, 실제 세계 데이터에서 mAP(median Average Precision)가 13% 이상 개선되는 것을 확인하였습니다.