Command Palette
Search for a command to run...
InternVL-U:推动面向理解、推理、生成与编辑的统一多模态模型普及化
InternVL-U:推动面向理解、推理、生成与编辑的统一多模态模型普及化
摘要
统一多模态模型(Unified Multimodal Models, UMMs)在融合理解、推理、生成与编辑能力时,往往面临维持强语义理解能力与获取强大生成能力之间的内在权衡。本报告提出 InternVL-U,这是一款参数量仅为 40 亿的轻量化统一多模态模型,旨在通过统一框架使上述能力普惠化。InternVL-U 遵循统一上下文建模原则,采用模态特异性模块化设计,并引入解耦的视觉表征机制;其架构将最先进的多模态大语言模型(Multimodal Large Language Model, MLLM)与基于 MMDiT 的专用视觉生成头(visual generation head)深度融合。为进一步弥合美学生成与高层智能之间的差距,我们构建了一套面向高语义密度任务(如文本渲染与科学推理)的综合数据合成流程。该流程以推理为核心范式,利用思维链(Chain-of-Thought, CoT)技术,更有效地对齐抽象的用户意图与细粒度的视觉生成细节。大量实验表明,InternVL-U 实现了卓越的性能与效率平衡:尽管仅使用 40 亿参数,其在多项生成与编辑任务中表现持续优于参数量为其三倍以上(如 140 亿参数的 BAGEL)的统一基线模型,同时保留了强大的多模态理解与推理能力。
一句话总结
上海人工智能实验室与多所高校的研究人员推出了 InternVL-U,这是一款轻量级的 40 亿参数统一多模态模型,其独特之处在于将多模态大语言模型(MLLM)与基于 MMDiT 的生成头相结合。通过利用以推理为核心的数据流水线,该模型在保持强大语义理解能力的同时,在高保真图像生成和编辑任务上超越了更大规模的基线模型。
主要贡献
- 统一多模态模型往往难以在强大的语义理解与卓越的生成能力之间取得平衡,这种权衡限制了它们在复杂任务中的有效性。
- InternVL-U 通过整合最先进的多模态大语言模型与专用的基于 MMDiT 的视觉生成头来解决这一问题,并辅以以推理为核心的数据合成流水线,利用思维链(Chain-of-Thought)将抽象意图与细粒度的视觉细节对齐。
- 尽管仅使用 40 亿参数,该模型在各种生成和编辑任务中始终优于规模超过其三倍以上的统一基线模型(如 BAGEL,140 亿参数),同时保留了强大的多模态理解和推理能力。
引言
统一多模态模型旨在将视觉理解、推理、生成和编辑整合到单一框架中,以推动通用人工智能(AGI)的发展,但它们在语义理解与高保真视觉输出之间面临着固有的权衡。先前的方法要么需要 prohibitively 昂贵的从头训练,要么依赖碎片化的流水线,导致生成头无法与大语言模型的隐藏状态 cleanly 对齐,往往造成文本渲染效果差和逻辑一致性弱的问题。作者利用一种轻量级的 40 亿参数架构,将最先进的多模态大语言模型与专用的基于 MMDiT 的视觉生成头相结合,实现了卓越的效率和性能。此外,他们引入了一种由思维链推理驱动的综合数据合成流水线,以弥合抽象用户意图与细粒度视觉细节之间的差距,使该模型在科学图表生成和精确文本编辑等复杂任务上显著优于规模大得多的基线模型。
数据集
InternVL-U 数据集概览
作者通过结合高质量开源数据集与专用合成数据流水线,构建了 InternVL-U 的大规模训练语料库。该方法针对多样化的多模态生成和编辑任务,特别关注长尾领域,如人像、富含文本的图像以及科学推理。
-
数据集构成与来源
- 初始数据池由公开可用的图像生成和编辑数据集组成。
- 针对人像和富含文本场景中的长尾案例,对专用子集进行了增强。
- 合成数据涵盖五个核心领域:通用、以文本为中心、以科学为中心、以空间为中心和以幽默为中心。
-
各子集的关键细节
- 通用数据: 包含人像、海报和自然场景等多样化的视觉领域。它利用双分支扩展工作流,结合基于检索的搜索以覆盖长尾概念,以及基于合成的生成以实现流形致密化。
- 以文本为中心的数据: 涵盖三种类型:自然图像上的语义相关文本、纯色背景上的文本,以及现有图像内的文本编辑(如车牌、招牌)。
- 以科学为中心的数据: 涵盖物理、化学、生物和计算机科学。物理数据使用基于 SVG 的流水线生成高质量图像对,而计算机科学数据则专注于树、图和有限状态机等数据结构。
- 以空间为中心的数据: 源自实体几何(使用 GeoGebra)、多视图 CAD(使用 ABC 数据集)和 3D 物体旋转(使用 Objaverse)。
- 以幽默为中心的数据: 从网络迷因中合成,用于训练模型理解抽象意图、讽刺以及图文对比。
-
数据使用与处理策略
- 预处理: 作者应用了严格的多维过滤协议,根据美学评分、分辨率、安全标准和水印检测排除低质量样本。使用感知哈希(p-hash)去除近重复项。
- ** captioning(描述生成):** 使用预训练的 MLLM(Qwen2.5-VL)生成不同粒度的描述,包括简洁、密集和以人为中心的描述。
- 双语支持: 在整个数据集中应用英译中流水线,以确保双语能力。
- 推理增强: 一个以推理为核心的模块利用思维链(CoT)推理,将抽象的用户指令转换为结构化、可执行的规范。此过程通过详细的视觉描述、空间关系和特定领域的约束来丰富提示词。
- 合成流水线:
- 物理: 使用 PaddleOCR 从文档中提取图像,随后通过基于 SVG 的生成流水线创建输入 - 输出对,与光栅编辑相比显著降低了成本。
- 计算机科学: 采用 Python 库(matplotlib, Graphviz)配合固定锚点,确保数据结构可视化的空间一致性。
- 空间旋转: 在物体旋转过程中,利用“物体优先”策略进行上下文整合,并利用“背景优先”策略严格保留背景。
-
评估基准
- 作者推出了 TextEdit,这是一个由人工策划的以文本为中心的图像编辑基准。
- 它涵盖了虚拟和现实场景中的 18 个子类。
- 评估依赖于人工标注的 ground truth 以及结合 OCR 指标、图像保真度测量和多模态 LLM 评估的混合协议。
方法
作者提出了 InternVL-U,这是一种高效的统一多模态模型(UMM),旨在将生成能力无缝集成到强大的理解骨干网络中。该架构由三个核心设计原则驱动:具有模态自适应生成的统一上下文建模、通过模态特定模块化设计实现的结构效率,以及用于理解和生成的解耦视觉表示。
参考框架图以了解高层架构设计。该模型通过采用统一的自回归范式进行上下文建模,但在预测目标上有所区分,从而解决了多模态理解与生成之间的二元对立。文本通过交叉熵损失使用分类分布进行建模,而视觉信号则使用流匹配(Flow Matching)在连续多元概率空间中进行建模。为了确保结构效率,模型使用基于编码器的架构(利用预训练的 ViT)初始化其骨干网络,而非单体设计,从而引入了一种能够高效聚合视觉信息的归纳偏置。此外,基于多模态扩散 Transformer(MMDiT)架构的专用生成头从预训练的 MLLM 中扩展而来。这种分层设计允许骨干网络专注于语义推理,而专用的茎部和头部则处理特定模态的转换。至关重要的是,模型采用了对称表示策略:来自 ViT 的高级语义特征用于理解,而单独的变分自编码器(VAE)将图像压缩到适合合成的潜在空间,避免了抽象与像素细节之间的优化权衡。
视觉生成头的详细架构如下图所示。

该头部采用双投影器(Dual Projectors)将多模态隐藏状态和 VAE 图像潜在变量映射到条件空间。为了解决规模不匹配问题,在 VLM 分支上引入了额外的归一化层。核心组件是双流 MMDiT 块(Dual-Stream MMDiT Block),它利用完全的双流架构,其中上下文流和目标流通过联合自注意力进行交互,但在 QKVO 投影和前馈网络(FFNs)中使用解耦的参数。注意力块中集成了逐元素门控机制(Element-wise Gating Mechanism),以增强非线性并缓解注意力下沉(attention-sink)现象。此外,模型采用多模态可扩展 RoPE(MSRoPE)来编码位置信息,为生成目标和上下文视觉令牌使用统一的 3D 嵌入(时间、高度、宽度),从而严格保留空间结构。
训练过程被表述为联合优化目标。对于文本组件,模型使用标准的下一词预测(NTP)目标最小化目标词元的负对数似然。对于视觉组件,采用具有速度参数化的流匹配框架来建模图像潜在变量的连续分布。模型回归速度向量场,将概率密度从高斯噪声分布传输到数据分布。最终的训练目标是离散损失和连续损失的加权和,其系数在不同训练阶段动态调整。
设计了三阶段课程以逐步解锁视觉合成技能。第一阶段为生成头预训练,冻结 MLLM,同时在文本到图像和图像编辑数据集的混合数据上训练生成头和投影器。第二阶段为任意分辨率持续预训练,涉及可变分辨率训练(512 到 1024 像素),骨干网络保持冻结以处理不同的长宽比。第三阶段为统一监督微调,解冻整个模型以实现端到端优化,混合思维链推理数据与图像生成和编辑数据。
为了支持高语义密度任务,构建了综合的数据合成流水线。对于图像编辑,多智能体框架生成了分为全局、对象、属性和组合四个级别的指令 - 编辑对。

对于文本到图像数据,自动流水线在自然图像和纯色背景上渲染文本,并采用自适应布局设计。

对于文本感知图像编辑,三阶段流水线利用 OCR 工具、基于 MLLM 的指令智能体和文本编辑智能体来生成高质量的配对样本。

在推理过程中,采用 Flow-DPM-Solver,推理步数为 20 步。图像和文本条件均使用无分类器引导(Classifier-free guidance),并设置了特定的比例以丢弃整个条件或仅丢弃文本条件。

实验
- 多模态理解和推理基准测试验证了统一训练策略在保持强大视觉 - 语言理解能力的同时,实现了理解与生成之间的优越平衡,尽管架构紧凑,但其表现与更大规模的模型相当。
- 通用图像生成实验证实了该模型能够渲染复杂的纹理、细腻的光照和精确的语义对齐,在参数显著更少的情况下优于其他统一模型。
- 以文本为中心的生成和编辑评估展示了其在渲染清晰的多语言文本以及准确修改特定文本区域同时保持背景完整性和视觉美感方面的最先进能力。
- 知识驱动的生成和基于推理的编辑测试表明,整合显式的推理步骤显著增强了模型执行复杂逻辑约束、科学概念和多步指令的能力。
- 所有领域的定性结果突出了该模型强大的可控性、高视觉保真度以及在处理从以幽默为中心的迷因到专业科学图表等多样化任务方面的有效性。