Command Palette

Search for a command to run...

20 天前

不要盲视你的VLA:面向OOD泛化的视觉表征对齐

Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

不要盲视你的VLA:面向OOD泛化的视觉表征对齐

摘要

视觉-语言-动作(Vision-Language-Action, VLA)模型日益取得的成功,源于预训练视觉-语言模型(Vision-Language Models, VLMs)所展现出的潜力:它们能够赋予智能体可迁移的世界知识与视觉-语言(VL)语义对齐能力,为具备更强泛化能力的动作模型奠定基础。然而,当这些VLMs被适配至动作模态时,其原始的视觉-语言表征与知识在多大程度上得以保留,仍不明确。在本研究中,我们系统地考察了VLA微调过程中表征保留的情况,发现直接进行动作微调会导致视觉表征性能退化。为准确刻画并量化这一影响,我们对VLA模型的隐藏层表征进行了探测,并分析了注意力图;进一步地,我们设计了一系列针对性任务与方法,将VLA模型与其对应的VLM模型进行对比,从而隔离出动作微调所引发的视觉-语言能力变化。此外,我们评估了多种视觉表征对齐策略,并提出一种简单而有效的解决方案,能够有效缓解表征退化问题,并显著提升模型在分布外(out-of-distribution, OOD)场景下的泛化能力。综上所述,我们的分析揭示了动作微调与视觉-语言表征退化之间的权衡关系,并提出了切实可行的方法以恢复继承的视觉-语言能力。代码已公开:https://blind-vla-paper.github.io

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
不要盲视你的VLA:面向OOD泛化的视觉表征对齐 | 论文 | HyperAI超神经