
摘要
理解视觉输入中的空间关系(例如,“笔记本电脑在桌子上”)对人类和机器人来说都非常重要。现有的数据集不足之处在于缺乏大规模、高质量的三维地面真值信息,这对于学习空间关系至关重要。本文通过构建Rel3D填补了这一空白:这是首个大规模、由人类标注的用于三维空间关系定位的数据集。Rel3D使得在大规模人类数据上量化三维信息在预测空间关系方面的有效性成为可能。此外,我们提出了一种最小对比数据收集方法——一种新颖的众包方法,旨在减少数据集偏差。我们数据集中的三维场景以最小对比对的形式出现:一对中的两个场景几乎完全相同,但在一个场景中某个空间关系成立,而在另一个场景中则不成立。我们通过实验证明,最小对比示例可以诊断当前关系检测模型的问题,并且有助于样本高效的训练。代码和数据可在https://github.com/princeton-vl/Rel3D 获取。