6 个月前

机器视觉 3D

Yunze Man Liang-Yan Gui Yu-Xiong Wang

摘要

能够在三维空间中完成复杂的视觉-语言推理任务，标志着家用机器人与以人为中心的具身人工智能发展的重要里程碑。本文表明，三维视觉-语言推理面临的一个关键且独特的挑战是情境意识（situational awareness），该能力包含两个核心要素：（1）自主智能体能够根据语言提示定位自身在环境中的位置；（2）智能体能够基于其计算出的位置，从该视角回答开放式问题。为应对这一挑战，我们提出SIG3D——一种端到端的、基于情境的三维视觉-语言推理模型。该模型将三维场景离散化为稀疏体素（sparse voxel）表示，并引入一种语言引导的情境估计器，随后结合情境化问答模块。在SQA3D与ScanQA数据集上的实验结果表明，SIG3D在情境估计与问答任务中显著优于当前最先进的模型（例如，情境估计准确率提升超过30%）。后续分析进一步验证了我们架构设计的合理性，深入探讨了视觉与文本令牌在模型中的不同功能，并强调了情境意识在三维问答任务中的关键作用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

机器视觉 3D

Yunze Man Liang-Yan Gui Yu-Xiong Wang

摘要

能够在三维空间中完成复杂的视觉-语言推理任务，标志着家用机器人与以人为中心的具身人工智能发展的重要里程碑。本文表明，三维视觉-语言推理面临的一个关键且独特的挑战是情境意识（situational awareness），该能力包含两个核心要素：（1）自主智能体能够根据语言提示定位自身在环境中的位置；（2）智能体能够基于其计算出的位置，从该视角回答开放式问题。为应对这一挑战，我们提出SIG3D——一种端到端的、基于情境的三维视觉-语言推理模型。该模型将三维场景离散化为稀疏体素（sparse voxel）表示，并引入一种语言引导的情境估计器，随后结合情境化问答模块。在SQA3D与ScanQA数据集上的实验结果表明，SIG3D在情境估计与问答任务中显著优于当前最先进的模型（例如，情境估计准确率提升超过30%）。后续分析进一步验证了我们架构设计的合理性，深入探讨了视觉与文本令牌在模型中的不同功能，并强调了情境意识在三维问答任务中的关键作用。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供