Command Palette
Search for a command to run...
Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

摘要
高效视觉-语言-动作(Vision-Language-Action, VLA)策略的开发对于实际机器人部署至关重要,然而当前方法面临高昂的计算成本和资源需求。现有的基于扩散模型的VLA策略需要具备数十亿参数的模型以及海量数据集才能实现优异性能。为应对这一效率挑战,本文提出两项创新:一是中间模态融合(intermediate-modality fusion),通过剪枝高达50%的大型语言模型(LLM)层,将计算资源重新分配至扩散模型头部;二是面向动作的全局自适应层归一化(action-specific Global-AdaLN)条件化机制,通过模块化适配将参数量减少20%。基于上述技术,我们构建了一种新型VLA模型——FLOWER,参数量仅为9.5亿。FLOWER仅需200个H100 GPU小时进行预训练,便在涵盖十类仿真与真实世界基准的190项任务中展现出与更大规模VLA模型相当的性能,并在多种不同机器人本体上均表现出良好的鲁棒性。此外,FLOWER在CALVIN ABC基准测试中取得了4.53的新SOTA(State-of-the-Art)成绩。相关演示视频、代码及预训练权重已公开,可访问 https://intuitive-robots.github.io/flower_vla/ 获取。