11 天前

EFM3D:面向3D第一人称基础模型进展的基准评测

Julian Straub, Daniel DeTone, Tianwei Shen, Nan Yang, Chris Sweeney, Richard Newcombe
EFM3D:面向3D第一人称基础模型进展的基准评测
摘要

可穿戴计算机的出现为人工智能(AI)提供了一种新型的上下文信息来源,这种信息嵌入在第一人称视角(egocentric)传感器数据中。此类新型第一人称数据具备精细的三维空间定位信息,因而为基于三维空间的新型空间基础模型(spatial foundation models)的发展创造了契机。为衡量我们所称的“第一人称基础模型”(Egocentric Foundation Models, EFMs)的研究进展,我们提出了EFM3D——一个包含两项核心三维第一人称感知任务的基准测试体系。EFM3D是首个基于高质量标注的第一人称数据(来自Project Aria项目)的三维目标检测与表面回归任务的基准,具有开创性意义。我们进一步提出第一人称体素提升(Egocentric Voxel Lifting, EVL),作为三维EFMs的基线模型。EVL充分利用所有可用的第一人称模态信息,并继承了二维基础模型的通用能力。该模型在大规模仿真数据上进行训练,其在EFM3D基准测试中的表现优于现有方法。