HyperAIHyperAI

Command Palette

Search for a command to run...

Console
17 小时前

X-VLA:作为可扩展跨具身视觉-语言-行动模型的软提示Transformer

X-VLA:作为可扩展跨具身视觉-语言-行动模型的软提示Transformer

摘要

成功的通用型视觉-语言-动作(Vision-Language-Action, VLA)模型依赖于在多种机器人平台上的有效训练,并需利用大规模、跨体感(cross-embodiment)、异构的数据集。为促进并充分利用丰富多样的机器人数据源所固有的异构性,我们提出了一种新颖的软提示(Soft Prompt)方法,其仅引入极少量新增参数。该方法将提示学习(prompt learning)思想融入跨体感机器人学习中,并为每种不同的数据源分别引入可学习的嵌入(embeddings)集合。这些嵌入作为具有体感特异性的提示,协同作用,使VLA模型能够有效挖掘和利用不同体感之间的多样化特征。我们提出的新型X-VLA架构——一种基于流匹配(flow-matching)的VLA结构——完全依赖于软提示化的标准Transformer编码器,兼具可扩展性与简洁性。在6个仿真环境及3台真实机器人上的综合评估表明,我们所实现的0.9B参数规模的X-VLA-0.9B模型,在一系列基准测试中均达到当前最优(SOTA)性能,展现出在广泛能力维度上的卓越表现,涵盖灵活灵巧性、跨体感、跨环境与跨任务的快速适应能力等。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供