HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI:一种联合扩展的多语言文本-图像模型

摘要

有效的扩展和灵活的任务接口使得大型语言模型在许多任务中表现出色。我们介绍了PaLI(Pathways Language and Image模型),这是一种将语言和视觉联合建模的方法。PaLI基于视觉和文本输入生成文本,并通过这一接口执行多种视觉、语言和多模态任务,支持多种语言。为了训练PaLI,我们利用了大规模预训练的编码器-解码器语言模型和视觉变换器(Vision Transformers,简称ViTs)。这使我们能够充分利用它们现有的能力,并分摊其高昂的训练成本。我们发现,视觉和语言组件的联合扩展非常重要。由于现有的语言Transformer比其视觉对应部分要大得多,我们训练了一个具有40亿参数的大规模ViT(ViT-e),以量化更大容量视觉模型带来的好处。为了训练PaLI,我们创建了一个包含100多种语言的100亿张图像和文本的新图像-文本训练集,并基于此构建了一个大规模的多语言预训练任务混合体。PaLI在多个视觉和语言任务(如图像描述、视觉问答、场景文本理解)中达到了最先进的水平,同时保持了简单、模块化和可扩展的设计。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供