HyperAI

2 个月前

当前人工智能虽能生成逼真的 2D 图像并理解像素内容，却缺乏对真实物理空间的 3D 理解能力，这成为机器人导航、自动驾驶及数字孪生等应用的主要瓶颈。现有模型多在二维网格中推理，无法直接回答物体间的距离或空间位置关系。要解决这一问题，需将三个独立的 AI 技术层融合：首先是单目测距层，利用 Depth-Anything-3 等模型从单张照片中提取精确到米级的深度图，而非相对深度；其次是基础分割层，借助 SAM 等基础模型，通过文本提示或点击在 2D 图像上生成高精度的物体掩码；最关键的第三层是几何融合，这是将 2D 预测映射到 3D 空间的核心工程。通过相机内参和外参，将 2D 像素标签反向投影为 3D 点云标签。由于单目深度存在噪声且不同视角的预测可能冲突，几何融合层通过四步流程解决这一问题：剔除远离相机的噪声点，利用 KD 树建立空间索引快速定位，识别未标记区域，最后采用多数投票机制对邻近点进行标签传播。这一过程将原本稀疏的 20% 标签覆盖率，通过几何推理提升至 78%，实现了 3.5 倍的数据增强，且无需重新训练模型，仅需纯计算几何运算即可在消费级 CPU 上于十秒内完成。尽管目前多视角间仍存在边界模糊等挑战，但随着对设备端测距和具备多视角感知能力的模型发展，未来两年内将实现从拍摄视频自动生成带语义标签的 3D 场景。该技术将大幅降低 3D 数据标注成本，使空间 AI 在工业、建筑及自动驾驶领域的实用化成为现实。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

AI 如何学习 3D 视觉与空间理解

相关链接

Command Palette

AI 如何学习 3D 视觉与空间理解

相关链接

Command Palette

AI 如何学习 3D 视觉与空间理解

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征