18 天前

Shijie Lian Bin Yu Xiaopeng Lin Laurence T. Yang Zhaolong Shen Changti Wu Yuzhuo Miao Cong Huang Kai Chen

摘要

视觉-语言-动作（Vision-Language-Action, VLA）模型在机器人操作任务中展现出巨大潜力，但通常在面对新指令或复杂多任务场景时泛化能力有限。我们识别出当前训练范式中存在一个关键缺陷：以目标为导向的数据采集方式导致数据集出现偏差。在这些数据集中，仅凭视觉观察即可高度预测语言指令，导致指令与动作之间的条件互信息趋于消失，我们称这一现象为“信息坍缩”（Information Collapse）。结果，模型退化为仅依赖视觉的策略，忽略语言约束，在分布外（Out-of-Distribution, OOD）场景下表现失败。为解决这一问题，我们提出一种名为 BayesianVLA 的新框架，通过贝叶斯分解机制强制模型遵循语言指令。该框架引入可学习的隐式动作查询（Latent Action Queries），构建双分支架构，分别估计仅依赖视觉的先验分布 $p(a \mid v)$ 与语言条件下的后验分布 $π(a \mid v, \ell)$ 。随后，我们优化策略以最大化动作与指令之间的条件点互信息（Conditional Pointwise Mutual Information, PMI）。该目标有效惩罚了“视觉捷径”行为，并奖励那些能明确解释语言指令的动作。该方法无需额外数据收集，即可显著提升模型泛化能力。在 SimplerEnv 和 RoboCasa 多个基准上的大量实验表明，该方法取得了显著性能提升，尤其在具有挑战性的 OOD SimplerEnv 基准上实现了 11.3% 的准确率提升，充分验证了本方法在将语言稳健地映射至动作方面的有效性。

一句话总结

华中科技大学、中科智谷与合作者提出 BayesianVLA 框架，通过贝叶斯分解与潜在动作查询解决 VLA 模型忽略指令的问题，在无需新数据的情况下，使 SimplerEnv 上的 OOD 泛化能力提升 11.3%。

主要贡献

我们识别了 VLA 训练中的“信息坍缩”现象：在以目标驱动的数据集中，仅凭视觉信息即可预测语言指令，导致模型忽略语言并在 OOD 场景中失效。
我们提出 BayesianVLA，一种双分支框架，使用潜在动作查询分别建模仅视觉先验与语言条件后验，通过条件点互信息优化以强制显式指令对齐。
BayesianVLA 在无需新数据的情况下达到最先进水平，包括在 SimplerEnv 上 OOD 性能提升 11.3%，并保留骨干 VLM 的纯文本对话能力。

引言

作者利用视觉-语言-动作（VLA）模型使机器人能够遵循自然语言指令，但发现一个关键缺陷：在目标驱动的数据集中，仅凭视觉观测即可预测指令，导致模型忽略语言并依赖“视觉捷径”，从而在分布外或模糊场景中泛化能力差。为解决此问题，他们提出 BayesianVLA，通过贝叶斯分解与可学习的潜在动作查询训练双分支策略——一个估计仅视觉先验，另一个估计语言条件后验——优化目标为最大化动作与指令之间的互信息。该方法无需新数据，显著提升 OOD 性能，同时保留模型核心语言理解能力，使其在真实部署中更鲁棒可靠。

方法

作者利用贝叶斯框架解决视觉-语言-动作（VLA）模型中的视觉捷径问题，其中由于目标驱动数据集中视觉到语言的确定性映射，指令与动作之间的条件互信息崩溃。为应对这一问题，他们提出最大化动作与指令之间的条件点互信息（PMI），其形式化为后验策略与仅视觉先验之间的对数似然比（LLR）。该目标源自信息论原则，鼓励模型学习仅凭视觉无法预测的、携带指令特定语义的动作表示。

如下图所示，所提出的 BayesianVLA 框架通过共享单一大型语言模型（LLM）主干但为每个分支维护不同输入结构的双分支训练策略运行。核心创新在于使用潜在动作查询——即附加到输入序列中的可学习标记，作为 LLM 与连续动作头之间的专用瓶颈接口。该设计通过利用仅解码器模型的因果掩码，实现对信息流的精确控制，使查询根据其位置关注输入的不同子集。

在先验分支中，输入序列为 $[v, Q, \ell]$ ，其中 $v$ 为视觉观测， $Q$ 为动作查询集合， $\ell$ 为语言指令。由于因果注意力掩码，查询可关注视觉输入但不可关注语言指令，从而生成仅编码视觉依赖信息的隐藏状态 $\mathbf{H}_{\mathcal{Q}}^{\text{prior}}$ 。这些特征通过流匹配损失 $\mathcal{L}_{\text{prior}}$ 预测动作 $a$ ，有效学习数据集固有的动作偏差 $p(a \mid v)$ 。

在后验分支中，输入序列为 $[v, \ell, Q]$ ，允许查询同时关注视觉与语言输入。这产生编码视觉与语言完整上下文的隐藏状态 $\mathbf{H}_{\mathcal{Q}}^{\text{post}}$ ，用于通过主干流匹配损失 $\mathcal{L}_{\text{main}}$ 预测专家动作 $a$ 。两个分支同时训练，共享相同的 LLM 权重。

为显式最大化 LLR 目标，框架计算两个分支中语言标记对数概率的差值。LLR 损失定义为 $\mathcal{L}_{\mathrm{LLR}} = \log p(\boldsymbol{\ell} \mid \boldsymbol{v}, \mathbf{H}_{\mathcal{Q}}^{\text{prior}}) - \mathrm{sg}(\log p(\boldsymbol{\ell} \mid \boldsymbol{v}))$ ，其中停止梯度算子防止模型退化基础语言模型能力。该术语优化以强制动作表示携带可解释指令的信息。

总训练目标结合两个分支的动作预测损失与 LLR 正则化项： $\mathcal{L}_{\mathrm{total}} = (1 - \lambda) \mathcal{L}_{\mathrm{FM}}(\psi; \mathbf{H}_{\mathcal{Q}}^{\text{post}}) + \lambda \mathcal{L}_{\mathrm{FM}}(\psi; \mathbf{H}_{\mathcal{Q}}^{\text{prior}}) - \beta \mathcal{L}_{\mathrm{LLR}}$ 。动作解码器使用修正流匹配目标训练，其中扩散 Transformer 预测基于查询特征的动作轨迹速度场。推理时仅执行后验分支生成动作，确保相比标准 VLA 基线无额外计算开销。

实验

初步实验表明，标准 VLA 模型即使在目标驱动数据集上训练，也常学习仅视觉策略 p(a|v) 而非真正的语言条件策略 π(a|v,ℓ)。
在 RoboCasa（24 项任务）上，仅视觉模型成功率为 44.6%，语言条件基线为 47.8%，表明因视觉-任务相关性，模型对指令依赖极小。
在 LIBERO Goal 上，当场景映射至多个任务时，仅视觉模型成功率降至 9.8%（对比基线 98.0%），暴露其在无语言情况下无法解决歧义。
在 BridgeDataV2 上，仅视觉模型在训练损失上与完整模型相当（0.13 对比 0.08），但在 OOD SimplerEnv 上灾难性失败（接近 0%），证实其过拟合视觉捷径。
BayesianVLA 在 SimplerEnv 上平均成功率达 66.5%（对比基线 55.2%），绝对增益 +11.3%，在“将胡萝卜放在盘子上”（+13.6%）和“将茄子放入黄色篮子”（+15.0%）等任务中表现优异。
在 RoboCasa 上，BayesianVLA 达到 50.4% 平均成功率（对比基线 47.8%），超越所有竞争对手，尤其在模糊任务如“从餐垫到盘子的 PnP 新物体”中显著提升（70.0% 对比仅视觉 34.0%）。
消融实验确认贝叶斯分解驱动核心增益（+6.0% 超过仅动作查询），而潜在动作查询通过将 DiT 复杂度从 O(N²) 降至 O(K²) 提升效率。
未来工作包括扩展至更大模型（如 Qwen3VL-8B）、真实世界测试及扩展至 RoboTwin/LIBERO 基准。

作者使用 SimplerEnv 基准评估 BayesianVLA，其在 BridgeDataV2 和 Fractal 数据集上训练。结果表明，BayesianVLA 实现 66.5% 的最先进平均成功率，显著优于基线 QwenGR00T（55.2%）及其他强竞争对手，尤其在需精确物体操作的任务中表现突出。

作者使用 SimplerEnv 基准评估 BayesianVLA 与基线模型的性能，结果显示 BayesianVLA 实现 63.5% 的最先进平均成功率，比 QwenGR00T 基线高出 8.3 个百分点。这一提升在需精确物体操作的任务中尤为显著，如“将胡萝卜放在盘子上”和“将茄子放入黄色篮子”，BayesianVLA 在这些任务上相比基线取得显著增益。结果证实所提出的贝叶斯分解有效缓解视觉捷径，促使模型依赖语言指令而非仅视觉线索。

作者使用 RoboCasa 基准评估 VLA 模型，其中 VisionOnly 基线达到 44.7% 的高成功率，表明模型可不依赖语言指令表现良好，因视觉捷径存在。BayesianVLA 超越所有基线，实现 50.4% 的平均成功率，并在仅视觉策略失败的任务中（如“从餐垫到盘子的 PnP 新物体”）显著提升，证实该方法通过利用语言消歧有效缓解视觉捷径。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

18 天前

Shijie Lian Bin Yu Xiaopeng Lin Laurence T. Yang Zhaolong Shen Changti Wu Yuzhuo Miao Cong Huang Kai Chen

摘要

一句话总结

主要贡献

我们识别了 VLA 训练中的“信息坍缩”现象：在以目标驱动的数据集中，仅凭视觉信息即可预测语言指令，导致模型忽略语言并在 OOD 场景中失效。
我们提出 BayesianVLA，一种双分支框架，使用潜在动作查询分别建模仅视觉先验与语言条件后验，通过条件点互信息优化以强制显式指令对齐。
BayesianVLA 在无需新数据的情况下达到最先进水平，包括在 SimplerEnv 上 OOD 性能提升 11.3%，并保留骨干 VLM 的纯文本对话能力。

引言

方法

实验

初步实验表明，标准 VLA 模型即使在目标驱动数据集上训练，也常学习仅视觉策略 p(a|v) 而非真正的语言条件策略 π(a|v,ℓ)。
在 RoboCasa（24 项任务）上，仅视觉模型成功率为 44.6%，语言条件基线为 47.8%，表明因视觉-任务相关性，模型对指令依赖极小。
在 LIBERO Goal 上，当场景映射至多个任务时，仅视觉模型成功率降至 9.8%（对比基线 98.0%），暴露其在无语言情况下无法解决歧义。
在 BridgeDataV2 上，仅视觉模型在训练损失上与完整模型相当（0.13 对比 0.08），但在 OOD SimplerEnv 上灾难性失败（接近 0%），证实其过拟合视觉捷径。
BayesianVLA 在 SimplerEnv 上平均成功率达 66.5%（对比基线 55.2%），绝对增益 +11.3%，在“将胡萝卜放在盘子上”（+13.6%）和“将茄子放入黄色篮子”（+15.0%）等任务中表现优异。
在 RoboCasa 上，BayesianVLA 达到 50.4% 平均成功率（对比基线 47.8%），超越所有竞争对手，尤其在模糊任务如“从餐垫到盘子的 PnP 新物体”中显著提升（70.0% 对比仅视觉 34.0%）。
消融实验确认贝叶斯分解驱动核心增益（+6.0% 超过仅动作查询），而潜在动作查询通过将 DiT 复杂度从 O(N²) 降至 O(K²) 提升效率。
未来工作包括扩展至更大模型（如 Qwen3VL-8B）、真实世界测试及扩展至 RoboTwin/LIBERO 基准。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

Shijie Lian Bin Yu Xiaopeng Lin Laurence T. Yang Zhaolong Shen Changti Wu Yuzhuo Miao Cong Huang Kai Chen

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

Shijie Lian Bin Yu Xiaopeng Lin Laurence T. Yang Zhaolong Shen Changti Wu Yuzhuo Miao Cong Huang Kai Chen

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

Shijie Lian Bin Yu Xiaopeng Lin Laurence T. Yang Zhaolong Shen Changti Wu Yuzhuo Miao Cong Huang Kai Chen

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters