HyperAI超神经

一句话总结

视频语言规划（VLP）是一种树搜索算法，它将视觉-语言模型训练为策略和价值函数，同时将文本到视频模型作为动力学模型，以生成长期多模态视频规划。这些规划通过目标条件策略转化为实际的机器人动作，从而在多对象重排、灵巧操作以及涵盖三个硬件平台的模拟和真实环境中，显著提高任务成功率。

核心贡献

视频语言规划（VLP）是一种算法，通过在树搜索过程中整合视觉-语言模型和文本到视频基础模型来生成长期视频规划。
该框架将视觉-语言模型训练为策略和价值函数，同时采用文本到视频模型作为动力学模型，使系统能够模拟并推理数百个未来帧，而非逐步生成规划。
实验表明，VLP通过将中间视频帧转化为目标条件机器人动作，在涵盖三个硬件平台的模拟和真实机器人基准测试中，显著提高了长期任务的成功率。

引言

智能物理交互要求 Agent 同时规划高层任务目标与底层环境动力学。尽管视觉-语言模型擅长生成抽象的分步指令，但它们难以将推理建立在物理约束和时间动态之上。文本到视频模型能够从网络视频中捕捉丰富的物体运动与物理规律，但目前尚不具备生成长连贯长期序列或直接集成到决策流水线的能力。本文提出视频语言规划（VLP），一种前向树搜索算法，通过协同这两种模型类型来利用其互补能力。在该框架中，视觉-语言模型提出候选动作并评估展开进度，而视频模型则模拟短期物理结果。这种组合实现了对数百帧的可扩展规划，使机器人能够以显著高于现有基线方法的成功率执行复杂、长期的操作任务。

数据集

数据集构成与来源： 研究团队将机器人操作轨迹与大规模视觉-语言语料库相结合。机器人数据包括 Language Table、RT-1 移动机械臂数据集、自定义遥操作演示数据，以及为跨模态预训练精心筛选的 Bridge、RT-2、Ego4D、EPIC-KITCHEN 和 LAION-400M 的组合。
子集详情： Language Table 包含约 10,000 条跨越数百个目标的长期轨迹，其中选取三个特定目标进行评估，生成约 20,000 条轨迹。14 自由度双机械臂子集包含约 1,200 个厨房堆叠遥操作演示。7 自由度移动机械臂数据直接来源于 RT-1，并补充了额外轨迹以进行泛化测试。视觉-语言混合数据整合了六个外部数据集，以支持扩散模型。
处理与元数据构建： 研究团队自动将长期轨迹和高层指令分割为短期文本标签。该元数据生成步骤为 Language Table 子集生成约 400,000 个短期标签，并为 14 自由度双机械臂数据集生成约 25,000 个标签。时间与指令分割确保了视觉-语言对的对齐，无需显式空间裁剪。
训练用途与划分： VLP 模型直接从机器人轨迹数据集学习操作策略。对于文本到视频扩散组件，研究团队将 7 自由度移动机械臂数据与更广泛的视觉-语言语料库混合。选定的三个 Language Table 目标作为主要评估划分，其余轨迹和外部数据集构成训练混合数据，以支持策略学习与跨域泛化。

方法

视频语言规划（VLP）框架将视觉-语言模型（VLM）和文本到视频模型整合到基于树搜索的规划系统中，以生成复杂任务的长期视频规划。整体架构在三个主要阶段运行：规划、规划执行与重规划。其核心利用多模态推理来合成一系列中间图像状态及对应的抽象文本动作，逐步实现高层自然语言目标。

规划过程从当前视觉观测 $x_0$ 和语言目标 $g$ 开始。框架采用视觉-语言模型作为策略 $\pi_{\text{VLM}}(x, g) \rightarrow a$ ，根据当前状态和目标生成一组候选抽象文本动作 $a$ 。该策略通过 PaLM-E 实现，可采用少样本提示方法或在轨迹片段上进行微调。同时，文本到视频模型 $f_{\text{VM}}(x, a)$ 充当动力学模型，预测在当前图像 $x$ 上执行给定文本动作 $a$ 后产生的视频序列 $x_{1:S}$ 。该视频模型在带有语言标签的短轨迹片段上进行训练，用于合成具体的未来状态。

为高效引导搜索，VLM 还被用作启发式函数 $H_{\text{VLM}}(x, g)$ ，用于估计从给定状态 $x$ 完成目标所需的剩余步数。该启发式函数经过训练以预测成功轨迹中的剩余步数，并用于对搜索空间进行评分与剪枝。规划算法采用树搜索过程，具体为并行爬山法，以探索动作和状态的序列。它初始化多个规划束，并在每一步使用 VLM 策略生成一组候选动作。对于每个动作，它利用文本到视频模型合成多个视频展开序列。根据 VLM 启发式函数确定的表现最佳视频将被追加到对应的规划束中。为保持多样性并防止收敛至次优路径，最低价值的规划束会定期被最高价值规划束的副本替换。

生成的长期视频规划 $x_{1:H}$ 由一系列代表中间子目标的图像帧组成。为执行该规划，采用目标条件策略 $\pi_{\text{control}}(x, x_g)$ 来推断底层控制动作 $u$ ，驱动机器人从当前状态 $x$ 移动到下一个合成的目标状态 $x_g$ 。该策略在配对的图像与控制动作数据上进行训练，采用短期预测方法。为处理长期任务并缓解误差累积，VLP 采用滚动时域控制策略，视频规划分段生成，并根据当前状态定期重规划。

实验

评估通过在受控环境中手动验证生成的视频规划与长期语言目标的一致性，并测量执行成功率，来检验 VLP 在模拟与真实机器人平台上的表现。实验表明，分层规划显著优于直接的文本到视频合成与未剪枝的策略链式调用，增加搜索深度可持续提升规划连贯性与任务成功率。该框架还展现出强大的泛化能力，通过利用预训练的网络知识并将执行分解为聚焦的视觉目标生成，成功适应新物体、变化的光照条件及未见过的任务。尽管仍存在偶发的物理不一致或解释性错误等微小局限，但整体结果证实 VLP 能够在不同场景中可靠地合成并执行复杂的多步骤机器人行为。

研究团队在模拟与真实环境任务中，将 VLP 的性能与基线方法进行对比，以评估其生成长期视频规划的能力。结果显示，VLP 显著优于基线方法，尤其在真实环境中，证明了其规划流程与价值函数的有效性。VLP 对新任务和环境也展现出强大的泛化能力。在模拟与真实环境中，VLP 生成长期视频规划的能力均大幅领先基线。引入价值函数使 VLP 的成功率相比无此函数的基线显著提升。VLP 展现出强泛化性，在真实环境中取得高成功率，尤其在“颜色分组”任务中表现突出。

研究团队评估了规划参数对视频合成性能的影响，结果表明增加规划视界与分支因子可提升成功率。结果显示，更高的搜索复杂度有助于生成质量更高的长期视频规划。该方法在计算资源增加时展现出良好的可扩展性。增加规划视界与分支因子提高了视频规划合成的成功率。更高的搜索复杂度带来更好的长期视频规划生成性能。该方法在规划计算预算增加时呈现正向扩展性。

研究团队评估了搜索参数对视频合成性能的影响，表明在规划过程中增加分支因子可提高成功率。结果表明，与较低值相比，较高的束宽与分支值能带来显著更好的结果，证明了广泛搜索在生成有效长期视频规划中的重要性。增加规划过程中的分支因子提升了视频合成的成功率。较高的束宽与分支值相比低值带来显著更好的性能。结果凸显了广泛搜索在生成有效长期视频规划中的关键作用。

研究团队将 VLP 与多种基线方法进行对比，评估其在移动物体至指定区域、按颜色分组及排列成线等任务中生成长期视频规划的能力。结果显示，VLP 在所有任务中均取得更高的完成率与奖励值，证明了其分层规划结构的有效性。在需要精确物体排列的任务中，性能提升尤为显著。VLP 大幅领先于直接合成视频或仅依赖无规划策略的基线方法。在移动物体、颜色分组和排列成线等多项任务中，VLP 的完成率显著高于所有基线。相较于直接合成视频或仅使用策略的方法，VLP 表现更优，凸显了分层规划与价值函数的重要性。该方法在需要精确物体排列的任务中展现出稳健性能，在颜色分组与排列成线等任务中保持高完成率。

{"summary": "研究团队对比了不同的长期视频合成方法，重点评估分层规划的有效性。结果表明，采用目标条件策略结合完整动作推断的方法，在颜色分组任务中的成功率高于逆动力学与单步策略。该方法在使用全面动作推断时，在得分与完成率指标上均展现出更优性能。", "highlights": ["采用目标条件策略结合完整动作推断的方法在颜色分组任务中优于逆动力学与单步策略。", "目标条件策略结合完整动作推断的完成率高于其他方法。", "结果表明，全面动作推断在得分与完成率指标上均带来更好的性能。"]}

研究团队在模拟与真实环境中将 VLP 框架与多种基线方法进行对比，以评估其生成长期视频规划的能力。实验结果验证，VLP 的分层规划结构与集成价值函数显著优于直接视频合成与仅依赖策略的方法，尤其在精确物体操作任务中表现突出，同时展现出对新场景的强大泛化能力。此外，参数分析证实，扩大规划视界与分支因子可持续提升成功率，并能与计算资源有效扩展。最终，研究得出结论：将全面动作推断与广泛搜索策略相结合，对于可靠生成高质量长期视频规划至关重要。

一句话总结

核心贡献

视频语言规划（VLP）是一种算法，通过在树搜索过程中整合视觉-语言模型和文本到视频基础模型来生成长期视频规划。
该框架将视觉-语言模型训练为策略和价值函数，同时采用文本到视频模型作为动力学模型，使系统能够模拟并推理数百个未来帧，而非逐步生成规划。
实验表明，VLP通过将中间视频帧转化为目标条件机器人动作，在涵盖三个硬件平台的模拟和真实机器人基准测试中，显著提高了长期任务的成功率。

引言

数据集

数据集构成与来源： 研究团队将机器人操作轨迹与大规模视觉-语言语料库相结合。机器人数据包括 Language Table、RT-1 移动机械臂数据集、自定义遥操作演示数据，以及为跨模态预训练精心筛选的 Bridge、RT-2、Ego4D、EPIC-KITCHEN 和 LAION-400M 的组合。
子集详情： Language Table 包含约 10,000 条跨越数百个目标的长期轨迹，其中选取三个特定目标进行评估，生成约 20,000 条轨迹。14 自由度双机械臂子集包含约 1,200 个厨房堆叠遥操作演示。7 自由度移动机械臂数据直接来源于 RT-1，并补充了额外轨迹以进行泛化测试。视觉-语言混合数据整合了六个外部数据集，以支持扩散模型。
处理与元数据构建： 研究团队自动将长期轨迹和高层指令分割为短期文本标签。该元数据生成步骤为 Language Table 子集生成约 400,000 个短期标签，并为 14 自由度双机械臂数据集生成约 25,000 个标签。时间与指令分割确保了视觉-语言对的对齐，无需显式空间裁剪。
训练用途与划分： VLP 模型直接从机器人轨迹数据集学习操作策略。对于文本到视频扩散组件，研究团队将 7 自由度移动机械臂数据与更广泛的视觉-语言语料库混合。选定的三个 Language Table 目标作为主要评估划分，其余轨迹和外部数据集构成训练混合数据，以支持策略学习与跨域泛化。

方法

实验

一句话总结

核心贡献

视频语言规划（VLP）是一种算法，通过在树搜索过程中整合视觉-语言模型和文本到视频基础模型来生成长期视频规划。
该框架将视觉-语言模型训练为策略和价值函数，同时采用文本到视频模型作为动力学模型，使系统能够模拟并推理数百个未来帧，而非逐步生成规划。
实验表明，VLP通过将中间视频帧转化为目标条件机器人动作，在涵盖三个硬件平台的模拟和真实机器人基准测试中，显著提高了长期任务的成功率。

引言

数据集

数据集构成与来源： 研究团队将机器人操作轨迹与大规模视觉-语言语料库相结合。机器人数据包括 Language Table、RT-1 移动机械臂数据集、自定义遥操作演示数据，以及为跨模态预训练精心筛选的 Bridge、RT-2、Ego4D、EPIC-KITCHEN 和 LAION-400M 的组合。
子集详情： Language Table 包含约 10,000 条跨越数百个目标的长期轨迹，其中选取三个特定目标进行评估，生成约 20,000 条轨迹。14 自由度双机械臂子集包含约 1,200 个厨房堆叠遥操作演示。7 自由度移动机械臂数据直接来源于 RT-1，并补充了额外轨迹以进行泛化测试。视觉-语言混合数据整合了六个外部数据集，以支持扩散模型。
处理与元数据构建： 研究团队自动将长期轨迹和高层指令分割为短期文本标签。该元数据生成步骤为 Language Table 子集生成约 400,000 个短期标签，并为 14 自由度双机械臂数据集生成约 25,000 个标签。时间与指令分割确保了视觉-语言对的对齐，无需显式空间裁剪。
训练用途与划分： VLP 模型直接从机器人轨迹数据集学习操作策略。对于文本到视频扩散组件，研究团队将 7 自由度移动机械臂数据与更广泛的视觉-语言语料库混合。选定的三个 Language Table 目标作为主要评估划分，其余轨迹和外部数据集构成训练混合数据，以支持策略学习与跨域泛化。

使用 Whisper AutoCaption 从任何语言自动生成视频字幕

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

使用 Whisper AutoCaption 从任何语言自动生成视频字幕

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

使用 Whisper AutoCaption 从任何语言自动生成视频字幕

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用 Whisper AutoCaption 从任何语言自动生成视频字幕

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用 Whisper AutoCaption 从任何语言自动生成视频字幕

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

使用 Whisper AutoCaption 从任何语言自动生成视频字幕

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters