17 天前
基于TransProteus CGI数据集预测透明容器内材料、液体及物体的三维形状、掩码和属性
Sagi Eppel, Haoping Xu, Yi Ru Wang, Alan Aspuru-Guzik

摘要
我们提出TransProteus,一个用于从单张图像中预测透明容器内材料、液体及物体的三维结构、分割掩码与物理属性的数据集及相关方法,且无需事先知晓图像来源或相机参数。在诸多领域中,对透明容器内物质的操作至关重要,而这一过程高度依赖视觉感知。本研究构建了一个全新的程序化生成数据集,包含5万张透明容器内液体与固体物体的图像。图像标注信息涵盖三维模型、材料属性(颜色/透明度/粗糙度等)以及容器及其内容物的分割掩码。该数据集的合成(CGI)部分通过组合13,000种不同物体、500种不同环境(HDRI)以及1,450种基于物理渲染(PBR)的材质贴图,并结合模拟液体与程序化生成的容器,实现自动化生成。此外,我们还提供了104张真实世界中透明容器内物体的图像,并附带容器及其内容物的深度图。我们提出一种与相机无关的方法,能够从单张图像中预测三维模型,输出形式为每个像素对应XYZ坐标的映射图。该方法使训练后的神经网络能够在不依赖图像来源信息的前提下,将三维模型以像素级XYZ坐标图的形式进行预测。为计算训练损失,我们采用三维模型内部点对之间的距离作为衡量标准,而非绝对的XYZ坐标值。这一设计使损失函数具备平移不变性。基于此,我们实现了仅凭单张图像即可预测容器及其内容物的三维结构。最后,我们展示了一种神经网络模型,能够仅通过单张图像,同时预测容器内容物及其表面的材料属性。