Command Palette
Search for a command to run...
Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

摘要
视觉-语言-动作(Vision-Language-Action, VLA)模型日益取得的成功,源于预训练视觉-语言模型(Vision-Language Models, VLMs)所展现出的潜力:它们能够赋予智能体可迁移的世界知识与视觉-语言(VL)语义对齐能力,为具备更强泛化能力的动作模型奠定基础。然而,当这些VLMs被适配至动作模态时,其原始的视觉-语言表征与知识在多大程度上得以保留,仍不明确。在本研究中,我们系统地考察了VLA微调过程中表征保留的情况,发现直接进行动作微调会导致视觉表征性能退化。为准确刻画并量化这一影响,我们对VLA模型的隐藏层表征进行了探测,并分析了注意力图;进一步地,我们设计了一系列针对性任务与方法,将VLA模型与其对应的VLM模型进行对比,从而隔离出动作微调所引发的视觉-语言能力变化。此外,我们评估了多种视觉表征对齐策略,并提出一种简单而有效的解决方案,能够有效缓解表征退化问题,并显著提升模型在分布外(out-of-distribution, OOD)场景下的泛化能力。综上所述,我们的分析揭示了动作微调与视觉-语言表征退化之间的权衡关系,并提出了切实可行的方法以恢复继承的视觉-语言能力。代码已公开:https://blind-vla-paper.github.io