Command Palette
Search for a command to run...

摘要
视频模型在生成高保真度、运动动态连贯的视频方面已取得显著进展。正如语言建模从文本生成发展到基于文本的推理能力,视频模型的发展也促使我们思考:视频模型能否通过视频生成实现推理?与离散的文本语料不同,视频将推理建立在明确的空间布局与时间连续性之上,这使其成为空间推理的理想载体。在本研究中,我们探索了“通过视频进行推理”的范式,并提出了VR-Bench——一个全面的基准测试平台,旨在系统评估视频模型的推理能力。该基准基于本质上需要空间规划与多步推理的迷宫求解任务,包含五种不同类型的迷宫及多种视觉风格,共涵盖7,920个程序化生成的视频。我们的实证分析表明,监督微调(SFT)能够高效激发视频模型的推理能力。在推理过程中,视频模型展现出更强的空间感知能力,其表现优于当前领先的视觉语言模型(VLMs),并在多样化的场景、任务及复杂度水平下均表现出良好的泛化性能。此外,我们还发现了一种推理时的缩放效应:在推理阶段采用多样化的采样策略,可使推理可靠性提升10%至20%。这些发现凸显了“通过视频进行推理”在空间推理任务中的独特潜力与可扩展性。