HyperAI超神经

摘要

我们提出构建通用多模态智能（omni-modal intelligence），使其能够理解任意模态并学习通用表征。具体而言，我们提出一种可扩展的预训练范式——多模态上下文（Multimodal Context, MiCo），该范式可在预训练过程中同时扩展模态数量、数据规模以及模型参数量。借助MiCo，预训练模型在多模态学习任务中展现出显著的涌现能力，相关能力在以下三类任务上进行了评估：i）涵盖10种不同模态的单模态感知基准任务；ii）25项跨模态理解任务，包括检索、问答与图像描述生成；iii）18项多模态大语言模型基准测试。我们的模型在各项任务中创下37项新的最先进（SOTA）性能记录。我们希望本研究能为通用多模态智能的发展提供有益推动。代码与模型已开源，详见：https://github.com/invictus717/MiCo。

摘要

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

摘要

用 AI 构建 AI

HyperAI Newsletters

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

摘要

用 AI 构建 AI

HyperAI Newsletters

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

探索大规模多模态预训练的极限

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

探索大规模多模态预训练的极限

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

探索大规模多模态预训练的极限

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

摘要

用 AI 构建 AI

HyperAI Newsletters