HyperAI超神经
6 days ago

Point3R:具有显式空间指针内存的流式3D重建

Yuqi Wu, Wenzhao Zheng, Jie Zhou, Jiwen Lu
Point3R:具有显式空间指针内存的流式3D重建
摘要

从有序序列或无序图像集合中进行密集的3D场景重建是将计算机视觉研究应用于实际场景中的关键步骤。继DUSt3R提出的范式之后,该方法将图像对统一到一个共享坐标系中,后续的方法通过维护隐式记忆来实现更多图像的密集3D重建。然而,这种隐式记忆在容量上有限,可能会导致早期帧的信息丢失。我们提出了一种名为Point3R的在线框架,旨在实现密集流式3D重建。具体而言,我们维护了一个显式的空间指针记忆,该记忆直接与当前场景的3D结构相关联。每个指针都被分配了一个特定的3D位置,并在全局坐标系中聚合附近区域的场景信息,形成一个不断变化的空间特征。从最新帧中提取的信息与这一指针记忆显式交互,从而将当前观测结果密集地整合到全局坐标系中。我们设计了三维层次位置嵌入(3D Hierarchical Position Embedding)以促进这种交互,并设计了一种简单而有效的融合机制,以确保我们的指针记忆既均匀又高效。我们的方法在各种任务上实现了具有竞争力或最先进水平的性能,并且训练成本较低。代码可在以下网址获取:此https链接。 为了进一步优化译文,以下是调整后的版本: 从有序序列或无序图像集合中进行密集的3D场景重建是将计算机视觉研究应用于实际场景的关键步骤。继DUSt3R提出的范式之后,该方法将图像对统一到一个共享坐标系中,后续的方法通过维护隐式记忆来实现多图像的密集3D重建。然而,这种隐式记忆在容量上有限,可能导致早期帧的信息丢失。为此,我们提出了Point3R——一种针对密集流式3D重建的在线框架。具体来说,我们维护了一个显式的空间指针记忆,该记忆直接与当前场景的3D结构相关联。每个指针被分配了一个特定的3D位置,并在全局坐标系中聚合附近区域的场景信息,形成一个动态变化的空间特征。从最新帧中提取的信息与这一指针记忆显式交互,从而将当前观测结果密集地整合到全局坐标系中。我们设计了三维层次位置嵌入(3D Hierarchical Position Embedding)以增强这种交互,并提出了一种简单而有效的融合机制,确保我们的指针记忆既均匀又高效。实验结果显示,我们的方法在多种任务上达到了具有竞争力或最先进水平的性能,并且训练成本较低。代码可在以下网址获取:此链接。 注:由于原文中的“this https URL”没有提供具体的链接地址,在译文中使用了占位符“此链接”来表示具体的URL地址,请根据实际情况替换为正确的链接地址。