3 个月前

多模态表征

统一多模态

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou

摘要

视频模型在生成高保真度、运动动态连贯的视频方面已取得显著进展。正如语言建模从文本生成发展到基于文本的推理能力，视频模型的发展也促使我们思考：视频模型能否通过视频生成实现推理？与离散的文本语料不同，视频将推理建立在明确的空间布局与时间连续性之上，这使其成为空间推理的理想载体。在本研究中，我们探索了“通过视频进行推理”的范式，并提出了VR-Bench——一个全面的基准测试平台，旨在系统评估视频模型的推理能力。该基准基于本质上需要空间规划与多步推理的迷宫求解任务，包含五种不同类型的迷宫及多种视觉风格，共涵盖7,920个程序化生成的视频。我们的实证分析表明，监督微调（SFT）能够高效激发视频模型的推理能力。在推理过程中，视频模型展现出更强的空间感知能力，其表现优于当前领先的视觉语言模型（VLMs），并在多样化的场景、任务及复杂度水平下均表现出良好的泛化性能。此外，我们还发现了一种推理时的缩放效应：在推理阶段采用多样化的采样策略，可使推理可靠性提升10%至20%。这些发现凸显了“通过视频进行推理”在空间推理任务中的独特潜力与可扩展性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

多模态表征

统一多模态

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou

摘要

视频模型在生成高保真度、运动动态连贯的视频方面已取得显著进展。正如语言建模从文本生成发展到基于文本的推理能力，视频模型的发展也促使我们思考：视频模型能否通过视频生成实现推理？与离散的文本语料不同，视频将推理建立在明确的空间布局与时间连续性之上，这使其成为空间推理的理想载体。在本研究中，我们探索了“通过视频进行推理”的范式，并提出了VR-Bench——一个全面的基准测试平台，旨在系统评估视频模型的推理能力。该基准基于本质上需要空间规划与多步推理的迷宫求解任务，包含五种不同类型的迷宫及多种视觉风格，共涵盖7,920个程序化生成的视频。我们的实证分析表明，监督微调（SFT）能够高效激发视频模型的推理能力。在推理过程中，视频模型展现出更强的空间感知能力，其表现优于当前领先的视觉语言模型（VLMs），并在多样化的场景、任务及复杂度水平下均表现出良好的泛化性能。此外，我们还发现了一种推理时的缩放效应：在推理阶段采用多样化的采样策略，可使推理可靠性提升10%至20%。这些发现凸显了“通过视频进行推理”在空间推理任务中的独特潜力与可扩展性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

通过视频进行推理：首个基于迷宫求解任务对视频模型推理能力的评估 | 论文 | HyperAI超神经