Command Palette
Search for a command to run...
将视觉语言模型引入赛场:体育领域空间智能基准测试
将视觉语言模型引入赛场:体育领域空间智能基准测试
摘要
体育长期以来因其不断挑战人类身体与认知能力的极限而备受瞩目。随着对视觉 - 语言模型(Vision-Language Models, VLMs)空间智能研究的日益关注,体育场景为理解高强度人体运动与动态物体交互提供了天然的测试平台。为此,我们推出了 CourtSI——首个专为体育场景设计的大规模空间智能数据集。CourtSI 包含超过 100 万个问答对,采用整体分类体系,系统涵盖空间计数、距离测量、定位及关系推理等任务,并覆盖羽毛球、网球和乒乓球等代表性隔网对抗类运动。依托明确定义的球场几何结构作为度量基准,我们构建了一个半自动数据引擎以重构体育场景,从而实现 CourtSI 的可扩展化构建。此外,我们提出了 CourtSI-Bench,这是一个包含 3,686 个问答对的高质量评估基准,所有数据均经过严格的人工验证。我们在 CourtSI-Bench 上评估了 25 个专有及开源的 VLM 模型,结果揭示了当前人类与人工智能之间仍存在性能差距,且现有空间智能基准在泛化能力方面存在局限。这些发现表明,体育场景能够暴露出当前基准所捕捉到的空间智能能力的不足。进一步地,基于 CourtSI 对 Qwen3-VL-8B 模型进行微调后,其在 CourtSI-Bench 上的准确率提升了 23.5 个百分点。该微调模型在 CourtSI-Ext(一个基于相似但未见过的运动构建的评估集)上也展现出良好的泛化能力,并显著增强了具备空间感知能力的解说生成表现。综上所述,这些结果表明,CourtSI 为提升视觉 - 语言模型在体育领域的空间智能提供了一条可扩展的发展路径。
一句话总结
复旦大学与上海人工智能实验室的研究人员推出了 CourtSI,这是首个面向体育领域的大规模空间智能数据集。该数据集利用半自动 3D 重建引擎,生成了超过一百万个具有度量精度的问答对,旨在支持动态网类运动场景中细粒度的人本推理。
主要贡献
- 体育场景因高强度的人体运动和动态物体交互,给空间智能带来了独特挑战,而现有基准测试主要关注静态场景和刚性物体,未能有效捕捉这些特征。
- 作者利用半自动数据引擎,以球场几何结构作为度量锚点重建 3D 体育场景,推出了包含超过 100 万问答对的大规模数据集 CourtSI,以及经过严格验证的评估集 CourtSI-Bench。
- 对 25 个视觉 - 语言模型的评估揭示了显著的人机性能差距;而在 CourtSI 上对 Qwen3-VL-8B 进行微调后,基准测试准确率提升了 23.5 个百分点,并展现出对未见过的运动(如匹克球)的强大泛化能力。
引言
视觉 - 语言模型日益被期望能够推理 3D 物理世界,但当前的基准测试主要依赖静态场景和刚性物体,导致在理解动态人体运动和非刚性交互方面存在空白。体育为这一挑战提供了高强度的测试平台,但由于难以从转播画面中获取度量精确的空间数据,该领域尚未得到充分探索。为此,作者推出了 CourtSI,这是首个面向体育空间智能的大规模数据集和基准测试,利用球场线条的固定几何结构,以厘米级精度重建 3D 场景。此外,作者还提出了 CourtSI-Bench 以严格评估模型性能,揭示了现有视觉 - 语言模型(VLMs)的显著局限性,同时证明了在其数据上进行微调可大幅提升空间推理能力,并增强对未见运动的泛化性。
数据集
CourtSI 数据集概览
-
数据集构成与来源 作者利用源自 RacketVision(一个包含专业网类运动片段的大规模基准测试)的转播视角图像,构建了 CourtSI 及其评估对应集 CourtSI-Bench。数据涵盖三项具体运动:羽毛球、网球和乒乓球。该流程依赖半自动数据引擎,利用标准化的球场几何布局,实现可扩展且度量精确的 3D 场景重建。
-
各子集关键细节
- CourtSI(训练集): 该大规模数据集包含 1,008,941 个问答对,由 52,481 张图像生成,涵盖 1,057 个独特场景。其中包括多种问题类型,如空间计数、距离测量、定位和关系推理。
- CourtSI-Bench(评估集): 为防止信息泄露,该基准测试包含 3,686 个问答对,采样自 1,988 张图像,涉及 382 个与训练集不重叠的独特场景。作者确保在三项运动和任务类别上分布均衡,以支持可靠的评估。
-
数据使用与处理策略 作者采用确定性流程生成问答对。首先重建 3D 场景,然后基于恢复的空间状态自动生成问题并推导答案。该过程包括:
- 度量感知重建: 利用球场几何作为锚点,通过 Perspective-n-Point (PnP) 求解器解算相机参数,确保坐标基于真实世界。
- 物体定位: 将深度估计转换为球体的地面投影估计,并对人体网格应用相似变换,根据标注的最低顶点高度校正深度误差。
- 问题生成: 利用 94 个预定义模板生成问题,涵盖数值输出(如以米为单位的距离、3D 坐标)和多项选择题选项。
-
质量控制与元数据构建 为确保可靠性,作者实施了严格的质量控制流程。他们利用专门构建的多视图数据集验证数据引擎,确认球体和球员的定位误差保持在厘米级。针对 CourtSI-Bench,两名标注员独立审查所有问答对,并参考 3D 可视化结果,以识别并剔除重建失败或空间关系模糊的实例。在此人工验证步骤后,最终基准测试经过重新采样以维持平衡。
方法
作者提出了一种半自动数据引擎,用于生成面向体育空间理解的大规模数据集。该整体框架将原始体育图像转化为包含 100 万个问答对的结构化数据集,从而支持对距离测量和关系推理等空间能力的评估。

该方法的核心是 3D 场景重建流程。流程始于原始图像,利用 PromptHMR 和 SAM3 恢复球员网格以生成边界框,随后进行高度校正。同时,通过手动标注地面点和高度点来建立球场几何结构。PnP 求解器利用这些点来估计具有度量感知能力的相机参数。球体标注也通过标记 2D 位置并将其投影到地面位置来完成。这些组件被整合以创建完全重建的 3D 场景。

球场标注过程具体涉及为不同运动(如羽毛球、网球和乒乓球)定义 3D 边界框或平面,以确保精确的空间定位。

为了标准化空间推理,系统采用特定的坐标系,其中原点 (0,0,0) 位于远端底线与左侧双打边线的交点(或球台表面的左上角)。X 轴沿边线向相机方向延伸,Y 轴沿远端底线向右延伸,Z 轴垂直向上。
基于这些重建的 3D 场景,作者生成了多样化的问答对。其中包括关于距离和坐标的数值问题、用于关系推理的多项选择题(MCQs)以及计数任务。

实验
- 在 CourtSI-Bench 上对 25 个视觉 - 语言模型的评估显示,虽然专有模型接近人类性能,但它们通常在遵循指令方面存在困难,且需要后处理来提取答案;而大多数开源模型在距离测量等对度量敏感的任务上表现显著不佳。
- 人类评估者在整体上优于所有模型,但在估计绝对距离和定位方面表现出明显局限性,凸显了体育场景中需要更先进的 3D 感知能力。
- 在 CourtSI 数据集上进行微调显著提升了空间智能,特别是在距离测量方面,证明了精心策划的数据在增强模型推理方面的有效性。
- 误差分析指出,透视投影和 3D 到 2D 的歧义是主要的失败模式,随着 3D 现实与 2D 图像外观之间差异的增加,会导致性能下降。
- 在未见过的匹克球数据集上的跨运动评估证实,虽然微调提高了泛化能力,但在不同运动之间迁移空间推理仍面临重大挑战。
- 在空间感知评论生成上的应用测试表明,微调后的模型成功将学习到的空间能力迁移到下游任务中,在保持语言质量的同时,生成了更准确且上下文相关的描述。
- 与单目场景重建方法的比较表明,利用球场几何结构在相机标定和球员定位精度方面优于标准的深度估计流程。