Command Palette
Search for a command to run...
OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准
OVO-S-Bench:面向多模态大语言模型流式空间智能的分层基准
Yifei Li Pengyiang Liu Yuhang Zang Zhongyue Shi Qi Fu Hongye Hao Jiwen Lu
摘要
机器人、增强现实(AR)与自动驾驶领域的多模态agent必须从连续的自我中心视角流中推理场所与布局,且常需利用当前视野之外的证据。现有基准测试要么在完整视频上进行离线评估,要么侧重于事件而非空间结构。我们提出OVO-S-Bench,这是一个完全由人工标注的流式空间智能基准测试,涵盖348个源视频中的1,680道题目。标注工作由12名经过培训的标注员完成,每人同时担任盲审交叉复核员,累计投入约804人时进行多轮质量保证。每道题目均附带查询时间戳与证据区间,在评估阶段,模型仅能观察到查询时间点之前的前缀。题目涵盖四个抽象程度递增的层级:瞬时自我中心感知、时空上下文追踪、空间模拟与推理,以及异中心映射。在38款专有与开源多模态大语言模型(MLLM)中,Gemini-3.1-Pro的表现落后人类专家27分(59.2分对比86.6分),其中异中心映射构成主要瓶颈。值得注意的是,面向流式输入且经过空间微调的MLLM表现反而不及其原始骨干模型。我们进一步发现,当思维链推理未在流式数据中得到实际锚定时,反而会加剧空间错误。通过揭示上述局限性,OVO-S-Bench为下一代流式空间MLLM构建了一个极具挑战性的测试平台。
一句话总结
OVO-S-Bench 是一个完全由人工标注的层次化基准,通过在四个递增的抽象层级上,将模型输入限制为查询时间戳之前的视频前缀,来评估多模态大语言模型在流式空间智能方面的表现,从而弥补了现有专注于事件的离线数据集在机器人、增强现实和自动驾驶应用中的局限性。
核心贡献
- 引入 OVO-S-Bench 作为面向流式空间智能的完全人工标注基准,涵盖 348 个视频中的 1,680 道题目。每道题目均包含查询时间戳与证据区间,在评估期间强制执行严格的前缀仅查看约束,同时跨越从瞬时自我中心感知到非自我中心映射的四个抽象层级。
- 对 38 款专有与开源多模态大语言模型的评估显示,Gemini-3.1-Pro 落后人类专家 27 分,其中非自我中心映射是主要瓶颈。结果进一步表明,与基础主干网络相比,流式微调与空间微调可能导致性能下降。
- 对推理机制的分析表明,当模型缺乏对连续视频流的视觉锚定时,思维链提示会放大空间错误。这些发现构建了一个严格的测试平台,引导未来研究朝向更具鲁棒性的流式空间多模态大语言模型发展。
引言
物体级变化检测要求系统在不同观测时间点比较空间状态,并识别新增、移除、移动或形态改变。该能力对于自主导航、视频监控和环境监测等应用至关重要,因为随时间准确追踪状态转换可直接为下游决策提供依据。现有模型通常在此类任务上表现不佳,原因在于缺乏可靠机制来保留并将先前的视觉状态与当前观测对齐,往往退化为仅对当前帧进行简单枚举,而非进行真正的时序推理。为克服这一局限,研究将物体级变化检测形式化为核心时空一致性验证任务。本文提出一种结构化评估协议,明确区分跨时间比较与静态场景理解,从而能够精确衡量模型在时间序列中对视觉信息的记忆与对比能力。
数据集
数据集构成与来源
- 本文引入 OVO-S-Bench,这是一个完全人工标注的基准,包含 348 个源视频中的 1,680 道题目。
- 视频素材取自九个公开数据集,涵盖五种不同场景:室内漫游、自我中心日常活动、户外与世界场景、自动驾驶录像以及空间标注的 3D 环境。
- 标注工作由十二名具备 3D 计算机视觉背景的受训志愿者完成,累计投入约 804 人时。
子集详情与分类体系
- 数据集按空间抽象的四个层级进行组织,每个层级包含特定的任务族,共计三十种标准任务类型。
- 第一级聚焦于瞬时自我中心感知,要求基于查询点前后相邻帧提供答案。
- 第二级测试时空上下文追踪,证据在视频早期出现,但在查询时刻已不可见。
- 第三级要求空间模拟与推理,包括心理旋转、假设状态变更与路径规划。
- 第四级要求非自我中心空间映射,迫使模型将多视角信息整合为全局拓扑表示,或将轨迹匹配至鸟瞰图。
- 查询时刻的平均视频前缀长度为 8.8 分钟,证据区间随层级从第一级到第四级显著扩展。
数据使用与评估协议
- 该数据集仅用于评估而非模型训练,并建立严格的流式协议,规定模型仅接收指定查询时间戳之前的视频前缀。
- 该基准评估了 38 款多模态与视频基础模型,涵盖专有系统、通用主干网络以及专为流式或空间任务微调的架构。
- 每道题目均设计为仅凭视觉前缀即可唯一作答,干扰项经过精心构造,在保持视觉合理性的同时,防止模型通过语言模式或常识推理得出答案。
处理流程、元数据与质量控制
- 研究利用查询时间戳与证据区间构建严格的时间划分,确保所有支持性视觉线索均在模型评估前出现。
- 通过多阶段过滤管线消除捷径漏洞,具体流程包括运行纯文本语言模型探针检测,随后由第二位标注员进行盲审交叉复核,最终由高级研究员裁定。
- 高级层级采用专用构建技术,包括用于一致性检查的生成式图像编辑、针对未观测房间的标准化命名实体标注,以及用于地图对齐任务的自动化鸟瞰图渲染。
- 最终数据集以单个 JSONL 文件形式发布,包含每项的结构化元数据,涵盖视频路径、时间标记、任务类别及对齐的答案键,帧提取工作仅保留用于离线分析与错误分类。
方法
本文提出一套用于评估视频理解模型空间推理能力的综合框架,该框架以空间抽象的四级分类体系为核心:L1(瞬时自我中心感知)、L2(时空上下文追踪)、L3(生成式空间推理)与 L4(全局拓扑映射)。每个层级代表独立的认知与计算挑战,L1 聚焦于第一人称视角的即时视觉感知,L2 要求在被视线索消失后保留时空事实,L3 涉及空间变化或假设场景的心理模拟,L4 则要求构建环境的全局拓扑(非自我中心/独立于观察者)地图。该框架旨在强制执行流式协议,模型仅被允许访问查询时间戳之前的视频内容,从而模拟从自我中心视频流中进行的实时因果推理。
基准的整体架构在框架图中得以可视化,清晰展示了从 L1 至 L4 的演进过程。在 L1 层级,任务在于理解当前视野,例如识别支撑可见物体的结构。L2 层级引入随时间追踪空间上下文的挑战,例如判断某位置在一段缺失期后是否保持不变。L3 层级要求模拟空间变化,例如预测物体旋转后能否穿过门框。最后,L4 层级要求全局拓扑映射,例如在非自我中心布局中推断房间间的方向关系。该层级结构确保了对空间推理能力的系统化评估,覆盖从即时感知到复杂集成世界建模的全过程。
模型与视频流的交互由帧采样策略控制,该策略决定消耗哪些帧。策略必须遵守前缀仅用约束,即仅可访问查询时间之前的帧。研究考虑了多种采样策略,包括仅使用查询帧的朴素基线、从因果滑动窗口采样的 nearest-16f@4fps 策略,以及将帧均匀分布在前缀上的均匀采样策略。一种在部署时不可用的理想策略(oracle policy)将帧预算完全分配至标注的证据区间内,以确立性能上限。此外,log-decay-128 策略实施基于时间衰减的调度方案,向最近的时间区间分配更多帧,从而在无真实标签证据的情况下,对近期重要性建立粗略的指数先验模型。该采样机制确保模型必须基于受限的流式输入进行推理,高度模拟现实场景。
该评估框架旨在弥补现有基准的三项结构性空白:空间基准缺乏流式协议、流式基准对空间结构的关注有限,以及既往视频基准缺少 L4 非自我中心映射层级。通过在题目粒度上强制执行流式协议,该基准确保证据具有时效性,必须实时进行推理。源视频涵盖多样化领域,包括室内漫游、户外录像与 3D 渲染环境,提供全面的测试平台。任务按空间抽象的四个层级进行划分,此前未经验证的 L4 层级采用命名实体、鸟瞰图与拓扑监督进行标注,首次实现对离线访问条件下观察到的空间推理差距在因果流式条件下是否持续存在或加剧的经验检验。
实验
评估在严格流式协议下测试 38 款多模态系统,视觉输入被限制为查询前缀,并通过与人类专家及纯文本对照组进行基准对比,以剥离真实的空間推理能力。基准测试验证了显著的性能差距,该差距由难以通过扩展规模或专项训练克服的非自我中心映射瓶颈所驱动。思维链分析证实,显式推理有助于跨帧整合,但常引入视觉锚定错误。进一步实验表明,先进的帧采样与记忆压缩策略未能持续提升性能,说明缺陷源于基础推理与持久状态保持的局限,而非上下文检索或架构专业化问题。
下表对比了各模型在视频理解任务上的表现,重点分析四个难度层级上的整体准确率与分层准确率。包括空间微调、流式优化与记忆压缩在内的专项方法,其整体表现普遍低于基础模型,其中要求非自我中心映射的高层级任务下降最为显著。结果凸显了模型与人类专家之间持续存在的性能差距,尤其在最高复杂度层级上表现明显,同时表明即便采用思维链等先进技术,在部分任务上的收益也较为有限。专项方法始终未能超越基础模型,在非自我中心映射任务上性能下滑最大。思维链推理在中层级任务中带来小幅提升,但对当前视角感知任务帮助甚微。模型与人类专家的性能差距依然显著,尤其在最复杂层级上,这表明从流式视频中进行空间推理面临根本性挑战。
研究使用标准化流式协议对多款模型在视频理解任务上进行评估,对比不同模型与配置下的表现。结果显示,尽管部分模型在特定指标上达到较高准确率,但人类表现与最优模型之间仍存在显著差距,且非自我中心映射层级出现明显性能下滑。评估强调,专项方法与思维模式并未稳定提升性能,模型表现受所需空间推理复杂度的影响较大。各模型性能差异显著,最优模型虽在部分指标上表现优异,但仍不及人类水平。非自我中心映射层级的性能大幅下滑表明空间推理存在瓶颈。专项方法与思维模式未能稳定超越基础模型,说明当前策略尚未完全有效应对任务的核心挑战。
研究在空间推理基准上评估多款模型,重点关注其在不同空间理解层级上的表现。结果表明,模型在处理非自我中心映射任务时面临困难,此类任务要求整合更广泛视觉上下文的信息,且专项方法未能稳定超越基础主干网络。此外,模型与人类的性能差距依然显著,尤其在需要长程空间推理的复杂任务上。与较简单的自我中心感知任务相比,模型在非自我中心映射任务上表现出明显的性能落差。针对流式处理或记忆压缩的专项方法未能持续提升整体准确率。模型性能仍大幅落后于人类水平,特别是在需要长程空间推理的任务中。
下表展示了不同控制条件下,查询级平均准确率与证据区间跨度及前缀长度之间的斯皮尔曼相关系数。相关性数值较小且不具备统计学意义,表明较长的证据区间或前缀并未一致性地导致准确率下降。结果提示,高层级任务(尤其是非自我中心映射)的难度并非由输入长度驱动,而是源于所需空间推理的复杂性。准确率与证据区间或前缀长度之间的关联微弱且无统计学意义。非自我中心映射瓶颈无法用输入长度解释,而应归因于空间推理的复杂性。证据区间与准确率之间存在的微弱正相关关系,反驳了“更长输入更难处理”的假设。
研究使用限制查询时间戳前帧访问的流式协议,对多款多模态模型在视频理解任务上进行评估。结果显示人类专家与最优模型之间存在显著性能差距,即便最强系统在非自我中心映射任务上仍显不足。评估强调,专项方法与思维模式未能稳定提升准确率,空间推理瓶颈似乎源于抽象长程空间关系的需求,而非记忆容量或帧访问受限。人类表现显著优于最优模型准确率,尤其在非自我中心映射任务上。专项模型与思维模式未能超越基础主干网络,表明当前设计策略未能带来有效改进。空间推理的主要瓶颈并非帧保留或采样,而是跨越视频前缀抽象长程空间关系的能力。
实验采用限制查询时间戳前帧访问的流式协议,在视频理解基准上评估多模态模型,系统性地检验模型在空间推理难度递增条件下的表现。结果验证,专项架构修改与思维链推理始终未能稳定超越基础模型,尤其在要求长程视觉整合的非自我中心映射任务上。此外,分析确认任务难度源于抽象空间关系的内在复杂性,而非记忆容量或输入长度的局限。最终,这些发现凸显了当前架构的根本性瓶颈,模型在处理流式视频复杂空间推理时仍大幅落后于人类专家。