
초록
2D 인식 기술의 급속한 발전으로 실제 환경의 이미지에서 객체를 정확히 감지하는 시스템이 개발되었습니다. 그러나 이러한 시스템은 2D 예측에만 집중하여, 세계의 3D 구조를 무시하고 있습니다. 한편, 3D 형태 예측 분야에서는 주로 합성 벤치마크와 단일 객체에 초점을 맞추어 발전해 왔습니다. 우리는 이 두 영역의 발전을 통합하기 위해 새로운 시스템을 제안합니다. 이 시스템은 실제 환경의 이미지에서 객체를 감지하고, 각 감지된 객체의 전체 3D 형태를 삼각 메시(triangle mesh)로 생성합니다. 우리의 시스템인 Mesh R-CNN은 Mask R-CNN을 메시 예측 브랜치(mesh prediction branch)로 확장하여, 먼저 거친 복셀 표현(coarse voxel representations)을 예측한 후 이를 메시로 변환하고 그래프 컨볼루션 네트워크(graph convolution network)를 통해 메시의 정점과 간선을 이용하여 세부적으로 정교화합니다. 우리는 ShapeNet에서 단일 이미지 형태 예측(single-image shape prediction) 성능을 향상시키는 데 기존 연구보다 우수함을 검증하였습니다. 이후, Pix3D 데이터셋에서 전체적인 Mesh R-CNN 시스템을 적용하여 객체 감지와 3D 형태 예측을 동시에 수행하였습니다.