투명한 용기 내부의 재료, 액체 및 물체의 3D 형태, 마스크 및 특성을 예측하기 위해 TransProteus CGI 데이터셋 사용

우리는 단일 이미지에서 투명 용기 내부의 물질, 액체, 물체의 3D 구조, 마스크 및 물리적 특성을 사전에 이미지 출처나 카메라 파라미터에 대한 지식 없이 예측하기 위한 데이터셋과 방법을 제안한다. 투명 용기 내에서 물질을 조작하는 것은 다양한 분야에서 필수적이며, 시각 정보에 크게 의존한다. 본 연구는 투명 용기 내부의 액체 및 고체 물체를 포함하는 총 5만 장의 이미지로 구성된 새로운 절차적 생성(dataset) 데이터셋을 제공한다. 이미지의 레이블에는 3D 모델, 물질 특성(색상/투명도/거칠기 등), 그리고 용기와 그 내용물에 대한 세그멘테이션 마스크가 포함된다. 데이터셋의 합성(CGI) 부분은 13,000개의 다양한 객체, 500개의 다양한 환경(HDRI), 1,450개의 물질 텍스처(PBR)를 사용하여 액체와 절차적 생성된 용기를 결합하여 생성되었다. 또한, 용기와 그 내용물의 깊이 맵을 포함한 104개의 실제 세계 이미지를 함께 제공한다. 우리는 카메라에 독립적인 방법을 제안하며, 이미지에서 XYZ 맵 형태로 3D 모델을 예측한다. 이는 훈련된 네트워크가 이미지의 각 픽셀에 대해 XYZ 좌표를 가지는 맵으로 3D 모델을 예측할 수 있게 하며, 이미지 출처에 대한 사전 지식 없이도 가능하다. 훈련 손실을 계산하기 위해 절대적인 XYZ 좌표 대신 3D 모델 내 점 쌍 간의 거리를 사용한다. 이를 통해 손실 함수를 평행 이동에 불변(invariant)하게 만들었다. 이 방법을 활용하여 단일 이미지에서 용기와 그 내용물의 3D 모델을 예측할 수 있다. 마지막으로, 단일 이미지로부터 용기 내용물 및 표면의 물질 특성을 예측하는 네트워크를 제시하며, 그 성능을 실험적으로 검증하였다.