Synthetic Data를 사용하여 훈련된 Mask R-CNN을 이용한 실제 깊이 이미지에서 미지의 3D 객체 분할

깊이 이미지에서 알려지지 않은 물체를 분할하는 능력은 로봇의 그립 및 물체 추적 기술을 향상시키는 잠재력을 가지고 있습니다. 최근 컴퓨터 비전 연구에서는 대규모 수작업 라벨링 데이터셋이 제공될 때 Mask R-CNN이 RGB 이미지에서 특정 카테고리의 물체를 분할하도록 훈련시킬 수 있음을 입증하였습니다. 그러나 이러한 데이터셋을 생성하는 것은 시간이 많이 소요되므로, 우리는 합성 깊이 이미지를 사용하여 훈련합니다. 많은 로봇들이 이제 깊이 센서를 사용하고 있으며, 최근 연구 결과는 합성 깊이 데이터에서의 훈련이 실제 세계로 성공적으로 전달될 수 있음을 제안하고 있습니다.우리는 자동화된 데이터셋 생성 방법을 제시하며, 시뮬레이션된 3D CAD 모델들의 쌓인 상태를 이용하여 50,000개의 합성 훈련용 깊이 이미지와 320,000개의 물체 마스크를 신속하게 생성하였습니다. 생성된 데이터셋에서 도메인 랜덤화(domain randomization) 기법을 적용한 Mask R-CNN 변형 모델을 훈련시켜, 수작업 라벨링 데이터 없이 범주에 관계없이 인스턴스 분할을 수행하도록 하였습니다. 우리는 이 훈련된 네트워크를 Synthetic Depth (SD) Mask R-CNN이라고 지칭하며, 이를 고해상도 실제 깊이 이미지 집합에 대해 평가하였는데, 이 이미지들은 복잡한 기하학적 구조를 가진 물체들이 밀집되어 있는 어려운 상자들을 포함하고 있습니다. SD Mask R-CNN은 COCO 벤치마크에서 점군 클러스터링(point cloud clustering) 기준 모델보다 평균 정밀도(Average Precision)에서 절대적으로 15%, 평균 재현율(Average Recall)에서 20% 우수한 성능을 보였으며, 대규모 수작업 라벨링 RGB 데이터셋으로 훈련되고 실험 환경의 실제 이미지로 미세 조정(fine-tuned)된 Mask R-CNN과 유사한 성능 수준을 달성하였습니다. 우리는 이 모델을 인스턴스별 그립 파이프라인에 배포하여 로봇 응용 프로그램에서의 유용성을 입증하였습니다.코드, 합성 훈련 데이터셋 및 보충 자료는 https://bit.ly/2letCuE 에서 확인하실 수 있습니다.