Command Palette

Search for a command to run...

16 天前

视觉空间调谐

视觉空间调谐

摘要

从视觉输入中捕捉空间关系,是实现类人通用智能的核心要素。以往多项研究尝试通过引入额外的专家编码器来提升视觉-语言模型(VLMs)的空间感知能力,但这种方法往往带来额外的计算开销,并通常损害模型的通用性能。为在通用架构中增强空间能力,我们提出视觉空间调优(Visual Spatial Tuning, VST),一种全面的框架,旨在培养VLMs具备类人的视觉空间能力,涵盖从空间感知到空间推理的全过程。我们首先构建了一个大规模数据集VST-P,用于提升VLMs的空间感知能力。该数据集包含410万条样本,覆盖单视图、多图像和视频三类场景,涵盖19项空间技能。随后,我们推出了VST-R数据集,包含13.5万条精心筛选的样本,旨在引导模型进行空间推理。特别地,我们采用渐进式训练流程:首先通过监督微调建立基础的空间知识,再通过强化学习进一步提升空间推理能力。该方法在不损害模型通用能力的前提下,显著提升了VLMs在多个空间基准测试上的表现,取得了当前最优结果,包括在MMSI-Bench上达到34.8%的准确率,在VSIBench上达到61.2%的准确率。实验表明,借助所提出的视觉空间调优范式,视觉-语言-动作模型的能力可得到显著增强,为构建更具物理现实基础的人工智能系统开辟了新路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉空间调谐 | 论文 | HyperAI超神经