17 天前

PaLM-E：具身多模态语言模型

Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence

查看论文详情

摘要

大型语言模型在众多复杂任务中表现出色。然而，在现实世界中实现通用推理（例如在机器人任务中）面临着“具身化”（grounding）的挑战。为此，我们提出了具身语言模型（embodied language models），通过直接将现实世界中的连续传感器模态（如视觉、状态估计等）融入语言模型，建立语言符号与感知输入之间的直接联系。我们模型的输入为多模态句子，其中交织融合了视觉信息、连续状态估计结果以及文本编码。我们采用端到端的方式，联合预训练的大规模语言模型，对这些编码进行训练，以完成多种具身任务，包括序列化机器人操作规划、视觉问答以及图像描述生成。评估结果表明，PaLM-E——这一单一的大型具身多模态模型——能够处理来自多种感知模态、适用于多种机器人平台的多样化具身推理任务，并展现出显著的正向迁移能力：模型在互联网规模的语言、视觉及视觉-语言数据上进行联合训练后，性能得到全面提升。我们最大的模型PaLM-E-562B（参数量达5620亿）不仅在机器人任务上进行了训练，还具备先进的视觉-语言通用能力，在OK-VQA基准测试中达到当前最优水平，同时随着模型规模的增大，其通用语言能力也持续增强。