8 个月前

Jean-Baptiste Alayrac‡ Jeff Donahue Pauline Luc* Antoine Miech* Iain Barr† Yana Hasson† Karel Lenc† Arthur Mensch† Katie Millican† Malcolm Reynolds†

摘要

构建能够使用少量标注示例快速适应新任务的模型，是多模态机器学习研究面临的一个开放性挑战。我们介绍了Flamingo，这是一系列具备这种能力的视觉语言模型（VLM）。我们提出了关键的架构创新，旨在：(i) 桥接强大的预训练视觉模型和语言模型，(ii) 处理任意交错的视觉和文本数据序列，以及 (iii) 无缝接收图像或视频作为输入。由于其灵活性，Flamingo模型可以在包含任意交错文本和图像的大规模多模态网络语料库上进行训练，这是赋予它们上下文内少样本学习能力的关键。我们对这些模型进行了全面评估，探索并测量了它们快速适应多种图像和视频任务的能力。这些任务包括开放式任务，如视觉问答，其中模型需要根据给定的问题进行回答；描述任务，用于评估模型描述场景或事件的能力；以及封闭式任务，如多项选择题形式的视觉问答。对于谱系中的任何任务，单个Flamingo模型通过少样本学习即可实现新的最先进水平，只需用特定任务的示例提示模型即可。在众多基准测试中，Flamingo的表现超过了那些在数倍于其的任务特定数据上微调的模型。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Jean-Baptiste Alayrac‡ Jeff Donahue Pauline Luc* Antoine Miech* Iain Barr† Yana Hasson† Karel Lenc† Arthur Mensch† Katie Millican† Malcolm Reynolds†

摘要

构建能够使用少量标注示例快速适应新任务的模型，是多模态机器学习研究面临的一个开放性挑战。我们介绍了Flamingo，这是一系列具备这种能力的视觉语言模型（VLM）。我们提出了关键的架构创新，旨在：(i) 桥接强大的预训练视觉模型和语言模型，(ii) 处理任意交错的视觉和文本数据序列，以及 (iii) 无缝接收图像或视频作为输入。由于其灵活性，Flamingo模型可以在包含任意交错文本和图像的大规模多模态网络语料库上进行训练，这是赋予它们上下文内少样本学习能力的关键。我们对这些模型进行了全面评估，探索并测量了它们快速适应多种图像和视频任务的能力。这些任务包括开放式任务，如视觉问答，其中模型需要根据给定的问题进行回答；描述任务，用于评估模型描述场景或事件的能力；以及封闭式任务，如多项选择题形式的视觉问答。对于谱系中的任何任务，单个Flamingo模型通过少样本学习即可实现新的最先进水平，只需用特定任务的示例提示模型即可。在众多基准测试中，Flamingo的表现超过了那些在数倍于其的任务特定数据上微调的模型。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供