6 个月前

统一多模态

计算机视觉

Jiabo Ye Haiyang Xu Haowei Liu Anwen Hu Ming Yan Qi Qian Ji Zhang Fei Huang Jingren Zhou

摘要

多模态大语言模型（MLLMs）在执行各类单图像任务指令方面已展现出卓越能力。尽管取得了显著进展，但在建模长图像序列方面仍面临重大挑战。本文提出了一种通用性强的多模态大语言模型——mPLUG-Owl3，该模型显著提升了在包含检索图像-文本知识、交错图像-文本内容以及长视频场景下的长图像序列理解能力。具体而言，我们设计了新颖的超注意力（hyper attention）模块，能够高效地将视觉与语言信息融合至一个由语言引导的统一语义空间中，从而有效支持复杂多图像场景的处理。大量实验结果表明，mPLUG-Owl3在与同类规模模型相比的单图像、多图像及视频基准测试中均达到了当前最优性能。此外，我们提出了一个具有挑战性的长视觉序列评估任务——“干扰抵抗性测试”（Distractor Resistance），用以衡量模型在复杂干扰环境下保持注意力集中的能力。最终，基于所提出的架构，mPLUG-Owl3在超长视觉序列输入任务上表现出色。我们期望mPLUG-Owl3能为构建更高效、更强大的多模态大语言模型提供有力支持。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

计算机视觉

Jiabo Ye Haiyang Xu Haowei Liu Anwen Hu Ming Yan Qi Qian Ji Zhang Fei Huang Jingren Zhou

摘要

多模态大语言模型（MLLMs）在执行各类单图像任务指令方面已展现出卓越能力。尽管取得了显著进展，但在建模长图像序列方面仍面临重大挑战。本文提出了一种通用性强的多模态大语言模型——mPLUG-Owl3，该模型显著提升了在包含检索图像-文本知识、交错图像-文本内容以及长视频场景下的长图像序列理解能力。具体而言，我们设计了新颖的超注意力（hyper attention）模块，能够高效地将视觉与语言信息融合至一个由语言引导的统一语义空间中，从而有效支持复杂多图像场景的处理。大量实验结果表明，mPLUG-Owl3在与同类规模模型相比的单图像、多图像及视频基准测试中均达到了当前最优性能。此外，我们提出了一个具有挑战性的长视觉序列评估任务——“干扰抵抗性测试”（Distractor Resistance），用以衡量模型在复杂干扰环境下保持注意力集中的能力。最终，基于所提出的架构，mPLUG-Owl3在超长视觉序列输入任务上表现出色。我们期望mPLUG-Owl3能为构建更高效、更强大的多模态大语言模型提供有力支持。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供