3 天前

STream3R:基于因果Transformer的可扩展序列3D重建

Yushi Lan, Yihang Luo, Fangzhou Hong, Shangchen Zhou, Honghua Chen, Zhaoyang Lyu, Shuai Yang, Bo Dai, Chen Change Loy, Xingang Pan
STream3R:基于因果Transformer的可扩展序列3D重建
摘要

我们提出了STream3R,一种全新的三维重建方法,该方法将点云图预测重新建模为仅解码器的Transformer问题。现有的多视角重建最先进方法要么依赖于计算成本高昂的全局优化,要么依赖于结构简单的记忆机制,而这些机制在序列长度增加时性能显著下降。相比之下,STream3R引入了一种流式处理框架,通过因果注意力机制高效处理图像序列,其灵感来源于现代语言建模的最新进展。通过从大规模三维数据集中学习几何先验知识,STream3R在多种复杂且具有挑战性的场景中展现出优异的泛化能力,包括传统方法常失效的动态场景。大量实验表明,无论是在静态场景还是动态场景的基准测试中,我们的方法均持续优于现有方法。此外,STream3R天然兼容基于大语言模型(LLM)的训练基础设施,能够高效支持大规模预训练与微调,适用于多种下游三维任务。我们的研究结果凸显了因果Transformer模型在在线三维感知中的巨大潜力,为流式环境下的实时三维理解铺平了道路。更多详细信息请参见项目主页:https://nirvanalan.github.io/projects/stream3r。

STream3R:基于因果Transformer的可扩展序列3D重建 | 最新论文 | HyperAI超神经