
摘要
我们提出首个数据驱动的多视角3D点追踪方法,旨在利用多个相机视角对动态场景中的任意点进行追踪。与现有单目追踪方法因深度模糊性和遮挡问题而表现受限不同,也不同于以往多相机方法需依赖超过20台相机并进行繁琐的逐序列优化,我们的前馈式模型仅需少量相机(例如四台)即可直接预测3D对应点,从而实现鲁棒且精确的在线追踪。在已知相机位姿的前提下,结合基于传感器获取或估计的多视角深度信息,我们的追踪器将多视角特征融合为统一点云,并结合k近邻相关性与基于Transformer的更新机制,可靠地估计长距离3D对应关系,即使在严重遮挡条件下亦能保持稳定性能。我们在5000个合成的多视角Kubric序列上进行训练,并在两个真实世界基准数据集——Panoptic Studio和DexYCB上进行评估,分别取得了3.1厘米和2.0厘米的中位轨迹误差。该方法在1至8个视角、不同观测角度以及24至150帧长度的多样化视频场景中均表现出良好的泛化能力。通过公开发布追踪器及其训练与评估数据集,我们旨在为多视角3D追踪研究树立新标准,并为实际应用提供一种实用工具。项目主页详见此https URL。