2 个月前

3D-LFM:提升基础模型

Dabhi, Mosam ; Jeni, Laszlo A. ; Lucey, Simon
3D-LFM:提升基础模型
摘要

从2D地标中提取3D结构和相机参数是计算机视觉领域的基石。传统方法一直局限于特定的刚性物体,例如透视n点(Perspective-n-Point, PnP)问题中的物体,但深度学习已经扩展了我们对各种物体类别(如C3DPO和PAUL)进行重建的能力,并且在噪声、遮挡和透视畸变方面表现出更强的鲁棒性。然而,所有这些技术都受到一个基本需求的限制,即需要在3D训练数据之间建立对应关系——这极大地限制了它们在拥有大量“对应”3D数据的应用中的实用性。我们的方法利用了变压器固有的置换等变性,能够处理每个3D数据实例中不同数量的点,抵御遮挡,并泛化到未见过的类别。我们在多个2D-3D提升任务基准测试中展示了最先进的性能。由于我们的方法可以针对如此广泛的结构进行训练,我们将其简称为3D提升基础模型(3D Lifting Foundation Model, 3D-LFM)——这是该领域的首个此类模型。