HyperAI

视觉-语言-动作（Vision-Language-Action, VLA）模型日益取得的成功，源于预训练视觉-语言模型（Vision-Language Models, VLMs）所展现出的潜力：它们能够赋予智能体可迁移的世界知识与视觉-语言（VL）语义对齐能力，为具备更强泛化能力的动作模型奠定基础。然而，当这些VLMs被适配至动作模态时，其原始的视觉-语言表征与知识在多大程度上得以保留，仍不明确。在本研究中，我们系统地考察了VLA微调过程中表征保留的情况，发现直接进行动作微调会导致视觉表征性能退化。为准确刻画并量化这一影响，我们对VLA模型的隐藏层表征进行了探测，并分析了注意力图；进一步地，我们设计了一系列针对性任务与方法，将VLA模型与其对应的VLM模型进行对比，从而隔离出动作微调所引发的视觉-语言能力变化。此外，我们评估了多种视觉表征对齐策略，并提出一种简单而有效的解决方案，能够有效缓解表征退化问题，并显著提升模型在分布外（out-of-distribution, OOD）场景下的泛化能力。综上所述，我们的分析揭示了动作微调与视觉-语言表征退化之间的权衡关系，并提出了切实可行的方法以恢复继承的视觉-语言能力。代码已公开：https://blind-vla-paper.github.io

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

摘要

用 AI 构建 AI

Hyper Newsletters