HyperAIHyperAI

Command Palette

Search for a command to run...

PaLM-E:具身多模态语言模型

摘要

大型语言模型在众多复杂任务中表现出色。然而,在现实世界中实现通用推理(例如在机器人任务中)面临着“具身化”(grounding)的挑战。为此,我们提出了具身语言模型(embodied language models),通过直接将现实世界中的连续传感器模态(如视觉、状态估计等)融入语言模型,建立语言符号与感知输入之间的直接联系。我们模型的输入为多模态句子,其中交织融合了视觉信息、连续状态估计结果以及文本编码。我们采用端到端的方式,联合预训练的大规模语言模型,对这些编码进行训练,以完成多种具身任务,包括序列化机器人操作规划、视觉问答以及图像描述生成。评估结果表明,PaLM-E——这一单一的大型具身多模态模型——能够处理来自多种感知模态、适用于多种机器人平台的多样化具身推理任务,并展现出显著的正向迁移能力:模型在互联网规模的语言、视觉及视觉-语言数据上进行联合训练后,性能得到全面提升。我们最大的模型PaLM-E-562B(参数量达5620亿)不仅在机器人任务上进行了训练,还具备先进的视觉-语言通用能力,在OK-VQA基准测试中达到当前最优水平,同时随着模型规模的增大,其通用语言能力也持续增强。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供