
초록
시각적 입력에서 공간 관계(예: "테이블 위의 노트북")를 이해하는 것은 인간과 로봇 모두에게 중요합니다. 기존 데이터셋은 대규모, 고품질 3D 지면 진실 정보가 부족하여 공간 관계 학습에 필요한 정보를 제공하지 못합니다. 본 논문에서는 이러한 간극을 메우기 위해 Rel3D를 구축하였습니다. Rel3D는 처음으로 대규모로 인간이 주석을 단 3D 공간 관계 지면 진실 데이터셋입니다. Rel3D는 대규모 인간 데이터에서 3D 정보가 공간 관계 예측에 얼마나 효과적인지를 정량적으로 평가할 수 있게 합니다. 또한, 우리는 최소 대조적 데이터 수집 -- 현재 데이터셋 편향성을 줄이는 새로운 크라우드소싱 방법을 제안합니다. 우리 데이터셋의 3D 장면들은 최소 대조적 쌍으로 구성됩니다: 한 쌍의 두 장면은 거의 동일하지만, 하나의 장면에서는 공간 관계가 성립하고 다른 하나에서는 성립하지 않습니다. 우리는 경험적으로 최소 대조적 예제들이 현재 관계 검출 모델의 문제점을 진단하고 샘플 효율적인 훈련을 이끌어낼 수 있음을 확인하였습니다. 코드와 데이터는 https://github.com/princeton-vl/Rel3D에서 이용 가능합니다.