Command Palette

Search for a command to run...

9 天前

Open-o3 Video:基于显式时空证据的视频推理

Open-o3 Video:基于显式时空证据的视频推理

摘要

大多数视频推理模型仅生成文本形式的推理过程,而无法明确指出关键证据出现的时间和位置。近期,如OpenAI-o3等模型在图像的以证据为中心的推理任务中引发了广泛关注,但将此类能力拓展至视频领域更具挑战性,因为这需要在动态场景中实现时间与空间的联合追踪与定位。为此,我们提出Open-o3 Video,一个非代理(non-agent)框架,该框架在视频推理中显式地融合时空证据,并通过精心构建的训练数据与训练策略,有效应对上述挑战。该模型在给出答案的同时,会突出显示关键时间戳、关键物体及其边界框,使推理过程建立在具体的视觉观察基础之上。为实现这一功能,我们首先构建并整理了两个高质量数据集:用于监督微调(SFT)的STGR-CoT-30k,以及用于强化学习(RL)的STGR-RL-36k。这两个数据集均包含精心设计的时间与空间标注,而目前大多数现有数据集仅提供视频的时间段信息或图像上的空间边界框,缺乏统一的时空监督信号和推理轨迹。在此基础上,我们采用一种冷启动式强化学习策略,引入多种专门设计的奖励机制,协同提升答案准确性、时间对齐度与空间定位精度。在V-STAR基准测试中,Open-o3 Video达到当前最优性能,相较于Qwen2.5-VL基线,mAM指标提升14.4%,mLGM指标提升24.2%。在包括VideoMME、WorldSense、VideoMMMU和TVGBench在内的多个广泛视频理解基准上,也均观察到一致的性能提升。除准确率外,Open-o3 Video生成的推理轨迹还为测试阶段的扩展提供了有价值的信号,支持基于置信度的验证机制,从而进一步提升答案的可靠性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供