15 天前

InternScenes:一个大规模可模拟室内场景数据集,具备真实布局

Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
InternScenes:一个大规模可模拟室内场景数据集,具备真实布局
摘要

具身智能(Embodied AI)的发展在很大程度上依赖于大规模、可模拟的三维场景数据集,这些数据集需具备场景多样性与逼真的布局特征。然而,现有数据集通常存在数据规模有限、场景多样性不足、布局经过“净化”处理而缺乏小型物品,以及物体之间严重重叠等问题。为解决上述局限,我们提出了InternScenes——一个全新的大规模可模拟室内场景数据集。该数据集通过整合三种不同来源的场景:真实世界扫描数据、程序化生成场景以及设计师创作场景,构建了约4万种多样化的室内场景,包含196万个3D物体,覆盖15种常见场景类型和288种物体类别。我们特别注重保留场景中的大量小型物品,从而实现具有平均每个区域41.5个物体的逼真且复杂的布局结构。通过一套全面的数据处理流程,我们为真实世界扫描数据创建了“真实到模拟”的复制品,确保数据的可模拟性;通过在场景中引入可交互物体,增强了场景的交互性;并利用物理模拟方法有效解决了物体之间的碰撞问题。我们通过两个基准应用展示了InternScenes的价值:场景布局生成与点目标导航任务。实验结果表明,该数据集所呈现的复杂且真实的布局为现有方法带来了新的挑战。更重要的是,InternScenes为这两项任务的模型训练规模化提供了可能,使得在如此复杂场景中的生成与导航成为现实。我们承诺将开源该数据集、相关模型及基准测试工具,以推动整个社区的共同发展。