Command Palette

Search for a command to run...

6 天前

通过视频进行推理:首个基于迷宫求解任务对视频模型推理能力的评估

通过视频进行推理:首个基于迷宫求解任务对视频模型推理能力的评估

摘要

视频模型在生成高保真度、运动动态连贯的视频方面已取得显著进展。正如语言建模从文本生成发展到基于文本的推理能力,视频模型的发展也促使我们思考:视频模型能否通过视频生成实现推理?与离散的文本语料不同,视频将推理建立在明确的空间布局与时间连续性之上,这使其成为空间推理的理想载体。在本研究中,我们探索了“通过视频进行推理”的范式,并提出了VR-Bench——一个全面的基准测试平台,旨在系统评估视频模型的推理能力。该基准基于本质上需要空间规划与多步推理的迷宫求解任务,包含五种不同类型的迷宫及多种视觉风格,共涵盖7,920个程序化生成的视频。我们的实证分析表明,监督微调(SFT)能够高效激发视频模型的推理能力。在推理过程中,视频模型展现出更强的空间感知能力,其表现优于当前领先的视觉语言模型(VLMs),并在多样化的场景、任务及复杂度水平下均表现出良好的泛化性能。此外,我们还发现了一种推理时的缩放效应:在推理阶段采用多样化的采样策略,可使推理可靠性提升10%至20%。这些发现凸显了“通过视频进行推理”在空间推理任务中的独特潜力与可扩展性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供