SmolVLA:一种经济高效的视觉-语言-行动模型用于机器人技术
Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene
发布日期: 6/3/2025

摘要
视觉-语言模型(VLMs)在大规模多模态数据集上预训练,编码了丰富的视觉和语言知识,使其成为机器人技术的强大基础。与其从零开始训练机器人的策略,最近的方法是将VLMs适应为视觉-语言-行动(VLA)模型,这些模型能够实现自然语言驱动的感知和控制。然而,现有的VLA模型通常规模庞大——往往拥有数十亿参数——导致高昂的训练成本和有限的实际部署能力。此外,它们依赖于学术界和工业界的数据库,忽视了来自经济实惠的机器人平台的社区收集数据日益增长的可用性。在这项工作中,我们提出了SmolVLA,这是一种小型、高效且由社区驱动的VLA模型,大幅降低了训练和推理的成本,同时保持了竞争力的表现。SmolVLA设计为可以在单个GPU上进行训练,并在消费级GPU甚至CPU上部署。为了进一步提高响应速度,我们引入了一种异步推理堆栈,将感知和行动预测与行动执行解耦,从而通过分块生成行动实现更高的控制频率。尽管其体积小巧,SmolVLA仍能达到比其大10倍的VLA模型相当的性能。我们在一系列模拟和实际机器人基准测试中评估了SmolVLA,并发布了所有代码、预训练模型和训练数据。