HyperAIHyperAI

Command Palette

Search for a command to run...

CollabVR:基于视觉-语言与视频生成模型的协同视频推理

Joowon Kim Seungho Shin Joonhyung Park Eunho Yang

摘要

近期,“视频思考”(Thinking with Video)方法利用视频生成模型(VGMs)通过生成在时间上连贯的“帧链”(Chain-of-Frames)作为推理产物,从而实现视觉推理。然而,即使是性能强大的 VGMs,在有目标导向的任务中仍表现出两种反复出现的故障模式:在多步任务中出现长时域漂移(long-horizon drift),以及在片段中间产生的会累积放大的模拟误差(mid-clip simulation errors)。这两种现象均源于缺乏基于 VGM 短时域视觉先验的显式推理机制——这一职能通常由视觉语言模型(VLMs)自然承担。但将 VLM 置于何处并非易事:前置规划(upfront plans)会在任何帧生成之前做出承诺,而事后针对整个视频的批评(post-hoc critiques)介入又过于滞后。为此,我们提出了 VLM-VGM 协同视频推理(CollabVR),这是一个闭环框架,以步骤级粒度将 VLM 与 VGM 耦合:VLM 规划即时下一步动作,检查 VGM 生成的片段,并将验证器(verifier)的诊断结果直接整合到下一步的动作提示中,以修复检测到的故障。在 Gen-ViRe 和 VBVR-Bench 数据集上,与单次推理、Pass@k 以及同等计算量下的先前测试时扩展(test-time scaling)基线相比,CollabVR 显著提升了开源和闭源 VGM 的性能,且在最具挑战性的任务上提升幅度最大。此外,CollabVR 还能在推理微调(reasoning-fine-tuned)的 VGM 基础上进一步带来性能提升,这表明步骤级的 VLM 监督与面向推理的微训练是正交的且可叠加的。我们在项目页面提供了视频样本及其他定性结果:https://joow0n-kim.github.io/collabvr-project-page

一句话总结

CollabVR 在一个闭环框架内,以步骤级粒度耦合视觉语言模型与视频生成模型。该框架规划即时动作、检查生成的片段,并整合诊断反馈以修复失败,从而在 Gen-ViRe 和 VBVR-Bench 基准测试中优于单次推理、Pass@k 和测试时扩展基线,同时完全兼容推理微调的视频生成模型。

核心贡献

  • 自适应规划模块动态确定任务步骤数,仅基于已生成的帧生成下一个即时动作,有效缓解多步视频推理中的长程漂移问题。
  • 闭环协作机制利用视觉语言模型验证每个生成的片段,并将诊断反馈直接注入后续动作提示词,将执行错误隔离至单个片段以实现针对性修复。
  • 在 Gen-ViRe 和 VBVR-Bench 上的评估表明,在计算量匹配的情况下,该方法在开源与闭源视频生成模型上均持续优于单次推理、Pass@k 和 VideoTPO 基线,并在推理微调变体上带来正交的性能提升。

引言

从基于静态图像的推理转向视频生成,解锁了科学可视化、教育演示和具身导航等具有动态时间基础的 AI 应用。尽管取得这些进展,当前的视频生成模型仅擅长短程视觉模拟,缺乏复杂多步任务所需的逻辑规划能力。这一差距导致两种反复出现的失败模式:过度负载的提示词将长序列压缩为不准确的短序列生成结果,以及局部中间片段错误传播并破坏整个轨迹。现有的测试时扩展方法难以修复这些问题,因为有效的推理路径受到严格限制,且经常落在生成器的原生分布之外。为解决这些挑战,本文提出 CollabVR,这是一个在步骤级粒度上耦合视觉语言模型与视频生成模型的闭环框架。该框架利用 VLM 作为渐进式规划器和验证器,检查每个生成的片段,实时诊断失败原因,并动态调整后续提示词以在错误累积前进行修正。这种逐步协作在无需额外模型训练的情况下,于多个基准测试中实现了更高的推理保真度和可解释性。

方法

研究提出 CollabVR,这是一种用于视频推理的闭环框架,在步骤级粒度上将视觉语言模型(VLM)与视频生成模型(VGM)相集成,以解决目标导向视频生成任务中的系统性失败问题。整体架构作为一个构建过程运行,正确轨迹通过交替的规划与生成步骤逐步组装,而非直接从 VGM 的输出分布中采样。该框架由两个核心模块组成:VLM 驱动的渐进式规划,以及 VLM 与 VGM 的协作推理,分别用于解决长程漂移和中间片段模拟错误。

流程始于输入图像与任务提示词,用于初始化推理循环。在每一步中,VLM 充当监督者,首先根据当前状态和任务目标规划下一个即时动作。该规划以增量方式执行,VLM 仅确定下一个子动作,而非提前承诺完整序列。随后,VGM 基于当前帧和规划动作生成短片段。生成的片段随后由 VLM 进行验证,VLM 输出包含接受/拒绝判定以及详细说明失败模式与修复建议的诊断报告。若片段被接受,则将其追加至历史记录,并以最后一帧作为新的条件输入继续流程。若被拒绝,则利用诊断建议演进动作提示词,并重新调用 VGM 生成新片段,每步最多重试指定次数。

VLM 驱动的渐进式规划模块通过将规划阶段与生成阶段解耦,缓解提示词过载与长程漂移问题。该方法未在初始阶段将完整任务预分解为动作序列,而是由 VLM 每次仅规划一个动作,并根据 VGM 的实际输出动态调整规划。这种自适应规划使系统能够根据实际生成结果动态调整步骤数与后续动作,相较于预先规划方法实现了更高效的性能与成本权衡。规划步骤的最大数量由超参数限制,以确保流程终止。

VLM 与 VGM 的协作推理模块通过在每次片段生成后引入验证步骤来解决执行失败问题。VLM 验证器将生成的片段与规划动作进行对比分析,检测特定失败模式,如方向错误、目标错误或场景崩溃。包含文本原因与可操作建议的诊断输出随后用于演进下一次生成尝试的动作提示词。该闭环反馈机制使系统能够直接修复已检测到的失败,而非依赖事后批评或多轨迹采样。提示词的演进设计为高效模式,直接复用验证器输出,无需额外调用 VLM。

该框架设计为与具体 VGM 无关,作为一种测试时扩展方法,可应用于任何现成生成器。整体流程在算法 1 中形式化描述,概述了规划、生成、验证与演进的迭代循环,最终输出为所有被接受片段的拼接结果。系统还可集成辅助恢复策略,例如在导航任务中的部分重新生成:VGM 从首个失败帧重新调用,以保留此前正确的进展,从而通过聚焦于失败的后缀部分而非整个轨迹,使测试时计算更加高效。

实验

实验在互补的视频推理基准与多种生成模型上进行评估,结果表明 CollabVR 在保持低于标准采样基线的计算成本的同时,持续提升了任务准确率与人类偏好评分。消融研究验证了渐进式任务分解与故障感知验证作为互补机制运作,其相对贡献动态适应各类推理任务的复杂度与结构。补充分析证实,该框架在规划与验证方面可靠地契合人类判断,在不同模型架构中有效泛化,并最终表明测试时编排是对更强底层视频生成能力的补充,而非替代。

研究分析了验证器在 CollabVR 流程不同步骤中的表现,显示最终拒绝率随后续步骤递增,表明随着任务推进,失败检测率上升。这一趋势表明,步骤间的累积误差或视觉漂移使后期阶段更难通过验证器接受输出。从第 1 步到第 3 步,最终拒绝率显著上升,表明随着任务推进,接受输出愈发困难。验证器被高频调用,相当比例的步骤触发了重新生成尝试。深层步骤中拒绝率的上升表明误差随时间累积,使后期阶段更易失败。

研究在两个视频推理基准上评估 CollabVR,表明该框架通过结合渐进式规划与故障感知恢复持续优于基线方法。结果显示各模块的有效性因基准而异,规划在多步任务中影响更大,验证在单步任务中更为有效,而完整流程在所有类别中均实现提升。该框架在不同视频生成模型与验证器选择下表现稳健,性能随验证器质量提升而扩展。CollabVR 通过结合渐进式规划与故障感知恢复优于基线,在两个基准的所有类别中均取得增益。主导模块在规划与验证之间根据基准任务复杂度发生切换,表明系统具备自适应行为。框架的有效性对验证器质量敏感,更优的验证器带来更准确的输出与恢复效果。

研究分析了框架中 VLM 调用的计算成本,显示规划器与步骤验证器的调用在延迟与输入 token 使用上相似,但验证器因视频内容需要显著更多的输入 token。两类调用的输出 token 均极少。这支持了 VLM 计算成本相对于 VGM 可忽略不计的观点。规划器与步骤验证器调用具有可比延迟与输出 token 使用量。步骤验证器因视频内容需要远多于规划器的输入 token。VLM 计算成本相对于 VGM 可忽略不计,支持将 VGM 生成时间作为成本代理指标。

研究在两个视频推理基准上评估 CollabVR,证明其在不同视频生成模型上持续优于基线方法。结果表明,相较于基于重采样的方法,CollabVR 以更低的生成成本实现更高准确率,其有效性因任务复杂度与所用视频生成模型而异。CollabVR 在两个基准上均优于基线方法,在需要多步推理的任务中增益最为显著。相较于全视频重采样方法,该框架以更低的单样本生成成本实现更高准确率。性能提升对视频生成模型敏感,在受益于渐进式规划与验证的模型上观察到更大增益。

研究在两个视频推理基准上评估 CollabVR,证明其在开源与闭源视频生成模型上均持续优于基线方法。结果表明,CollabVR 以更低的生成成本实现更高准确率,尤其在需要多步推理的任务中,且框架有效性因任务类型与视频生成模型而异。性能增益归因于自适应规划与故障感知恢复机制,主导模块取决于基准的任务复杂度特征。CollabVR 在开源与闭源视频模型上均取得高于基线的准确率,改进在复杂推理任务中最为明显。框架有效性因任务类别而异,不同模块在不同类型的推理问题中贡献更大。CollabVR 在提升性能的同时降低生成成本,表明自适应规划与恢复比全视频重采样更高效。

在两个视频推理基准与多种生成模型上的评估验证了渐进式规划与故障感知恢复如何协同提升视频推理质量。逐步分析表明,由于误差累积,拒绝率随任务推进自然增加;模块对比显示,规划驱动复杂多步任务的性能,而验证在简单场景中表现优异。计算评估进一步证实视觉语言模型开销保持可忽略不计,最终证明相较于传统重采样基线,该自适应框架实现了更优的准确率与效率。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供