SpatialLM:用于结构化室内建模的大规模语言模型训练
Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
发布日期: 6/10/2025

摘要
SpatialLM 是一种大型语言模型,旨在处理 3D 点云数据并生成结构化的 3D 场景理解输出。这些输出包括墙壁、门、窗户等建筑元素以及带有语义类别的定向物体框(oriented object boxes)。与以往依赖特定任务网络设计的方法不同,我们的模型遵循标准的多模态 LLM 架构,并直接从开源 LLM 进行微调。为了训练 SpatialLM,我们收集了一个大规模、高质量的合成数据集,该数据集包含 12,328 个室内场景(54,778 个房间)的点云及其对应的地面真实 3D 注释,并对各种建模和训练决策进行了详细研究。在公开基准测试中,我们的模型在布局估计方面表现出最先进的性能,在 3D 物体检测方面也取得了具有竞争力的结果。通过这些成果,我们展示了一条可行的路径,以增强现代 LLM 的空间理解能力,应用于增强现实、具身机器人等领域。