Command Palette
Search for a command to run...
Tuna-2:像素嵌入在多模态理解与生成中优于视觉编码器
Tuna-2:像素嵌入在多模态理解与生成中优于视觉编码器
摘要
统一的多模态模型通常依赖预训练的视觉编码器,并为理解和生成任务使用独立的视觉表示,这导致两项任务之间出现错位,并阻碍了从原始像素开始的端到端优化。为此,我们引入了 Tuna-2,这是一种原生统一的多模态模型,能够直接基于像素嵌入(pixel embeddings)执行视觉理解和生成。Tuna-2 通过采用简单的补丁嵌入层来编码视觉输入,从而大幅简化了模型架构,完全摒弃了如 VAE 或表示编码器之类的模块化视觉编码器设计。实验表明,Tuna-2 在多模态基准测试中达到了最先进的性能,证明了统一像素空间建模在高质量图像生成方面完全可以与潜在空间(latent-space)方法相媲美。此外,尽管基于编码器的变体在预训练早期收敛速度更快,但 Tuna-2 无编码器(encoder-free)的设计在大规模场景下实现了更强的多模态理解能力,特别是在需要细粒度视觉感知的任务上。这些结果证实,预训练视觉编码器并非多模态建模所必需,端到端的像素空间学习为生成和感知两方面构建更强视觉表示提供了一条可扩展的路径。
一句话总结
TUNA-2 是一个统一的多模态模型,它使用直接的像素嵌入替换预训练视觉编码器,以实现理解与生成的完全端到端优化。该模型在基准测试中取得了最先进的性能,证明像素空间建模在高质量图像生成方面可与潜在空间方法相媲美,并在大规模场景下提供更强的细粒度视觉感知能力。
核心贡献
- 提出 TUNA-2 作为原生统一多模态模型,该模型直接使用简单的 patch 嵌入层处理原始像素嵌入,替代预训练的 VAE 或表示编码器,从而直接执行视觉理解与生成。该架构将统一的视觉-语言主干网络与像素空间流匹配头相结合,在单一框架内支持图像理解、文生图生成及图像编辑。
- 提出一种基于掩码的视觉特征学习方案,以稳定训练过程并促进高维像素空间中的鲁棒表示学习。该技术解决了不依赖紧凑潜在空间而直接从原始像素学习统一表示时所固有的挑战。
- 基准评估表明,无编码器架构的 TUNA-2 在多种多模态理解与生成任务中取得了最先进的或极具竞争力的性能。该模型在细粒度视觉感知基准上持续超越基于编码器的变体,同时在高质量图像生成方面与潜在空间方法持平。
引言
统一多模态模型旨在将视觉理解与生成整合于单一框架中,从而构建能同时解析和创建视觉内容的高效 AI 系统。现有方法通常依赖预训练视觉编码器或变分自编码器将图像压缩至潜在空间,这会导致任务间的表示不匹配,并阻碍直接从原始像素进行完全端到端优化。为克服这些局限,作者提出了 TUNA-2,这是一种原生统一模型,彻底摒弃了模块化视觉编码器,转而通过简单的 patch 嵌入层处理原始像素。通过将这一精简架构与基于掩码的稳定化技术相结合,作者证明了端到端的像素空间学习不仅能够达到最先进的生成质量,还在细粒度视觉理解基准上显著优于以往的潜在空间模型。
数据集
-
数据集构成与来源
- 作者构建了一个混合语料库,将专有图文对与外部公开数据集相结合,以同时支持多模态理解与生成能力。
-
子集详情
- 阶段 1 预训练: 5.5 亿对内部图文对,其中 70% 为图像描述数据,30% 为文生图生成数据。该部分与 Nemotron 纯文本样本混合,后者占总预训练数据的 20%。
- 阶段 2 监督微调: 精选数据集,专注于指令遵循、图像编辑与高质量生成。包含来自 FineVision 的 1300 万条对话样本,以及来自 OmniEdit 的约 200 万条编辑样本。
-
数据使用与训练配置
- 以 Qwen2.5-7B-Instruct 作为基础语言解码器。预训练阶段使用 AdamW 优化器,学习率为 1e-4,进行 30 万步的端到端训练。随后进行监督微调,学习率为 2e-5,训练 5 万步。对于 TUNA-R 变体,会集成 SigLIP 2 So400M 视觉编码器,连接器对齐阶段在 5e-4 的学习率下训练 3000 步。
-
处理与技术细节
- 所有训练阶段均将输入序列统一填充至每张 GPU 最多 16k tokens。提供的文档未明确说明图像裁剪策略或元数据构建流程,而是重点阐述序列长度标准化、优化器选择及学习率调度。
方法
作者通过渐进式的架构简化推导出 TUNA-2,这是一种专为像素空间视觉理解与生成设计的原生统一多模态模型。该框架始于标准的基于编码器方法,如图 1 所示,其中视觉编码器将输入图像转换为视觉 tokens,随后这些 tokens 与大语言模型(LLM)解码器中的文本 tokens 进行融合。该设计被称为 TUNA-R,保留了预训练表示编码器与用于图像生成的变分自编码器(VAE)。随后,作者移除 VAE 以简化架构,得到仅依赖表示编码器与 LLM 解码器的 TUNA-R。在此基础上,TUNA-2 通过彻底移除预训练表示编码器,引入了完全无编码器的设计。取而代之的是,原始图像块通过 patchify 层直接嵌入为视觉 tokens,随后与文本 tokens 在 LLM 解码器中联合处理。该方法消除了预训练编码器所固有的固定分辨率归纳偏置及低层细节访问受限问题,最终形成单一的统一 Transformer 架构。 
为在无 VAE 的情况下实现高保真像素空间图像生成,该模型采用 JiT 中的 x-prediction 与 v-loss 范式进行流匹配。该过程使用线性调度在像素空间中构建噪声样本:xt=tx1+(1−t)x0,其中 x1 为源图像,x0∼N(0,I) 为采样噪声,t∈[0,1]。模型被训练以预测干净图像 xθ=πθ(xt,c,t),其中 πθ 代表统一模型,c 为条件信号。然而,学习目标被表述为回归速度项 vθ=(xθ−xt)/(1−t),损失函数定义为 Lflow=Et,c,x1,x0∣∣vθ−v∣∣22,其中 v=x1−x0 为真实速度。在推理阶段,使用欧拉求解器对图像进行去噪,从含噪的 t<t′ 时刻预测 xt′=xt+(t′−t)vθ,其中 vθ 源自模型预测的 xθ。 
为解决高维像素空间中学习鲁棒视觉表示的挑战,作者提出一种基于掩码的特征学习方案。如图 2 所示,在训练过程中,根据掩码比例随机选择并掩蔽一部分图像块,被掩蔽的视觉 tokens 由可学习的掩码 token 替代。该掩码操作同时应用于生成与理解样本,但目的不同。在生成任务中,模型预测包含掩蔽与非掩蔽区域的完整干净图像,这构成了更具挑战性的去噪任务,并促使可学习掩码 token 吸收有用的上下文信息。在理解任务中,模型基于掩码后的视觉输入生成文本响应,作为一种正则化机制,迫使模型在部分视觉观测下进行多模态推理。该方案类似于视觉领域的掩码建模技术(如 MAE 和 MaskGIT),并在经验上提升了预训练期间的模型性能。
TUNA-2 的训练流程包含两个完全端到端的阶段。在阶段 1(全模型预训练)中,模型在图像描述与文生图任务上进行联合训练,旨在为流匹配头建立强有力的初始化,并使像素空间输入适应统一多模态任务。在阶段 2(监督微调,SFT)中,模型使用图像编辑、图像指令遵循及高质量图像生成数据集,在更低的学习率下进行进一步微调,以提升性能与泛化能力。这种端到端设计消除了对独立连接器层训练的需求(基于编码器的 TUNA-R 等方法需进行此项训练),从而简化了整体训练流程。
实验
评估涵盖了全面的图像理解、生成、编辑与重建基准测试,以及针对训练数据比例与特征学习策略的消融实验。这些实验验证了像素空间统一表示在细粒度视觉推理等任务上持续优于潜在空间与模块化架构,同时平衡的数据混合与基于掩码的特征学习显著增强了模型鲁棒性。对比分析表明,尽管基于编码器的变体利用初始语义先验实现了更快的收敛,但无编码器设计最终实现了更优的多模态理解与更精准的多模态对齐。总体而言,研究结果证实,对单一像素空间架构进行大规模联合训练,能够在不依赖预训练视觉编码器的情况下,有效支持高质量生成与鲁棒的指令引导编辑。
作者针对图像理解、生成、编辑与重建的各项基准测试,评估了 TUNA-2 及相关模型的性能。结果表明,TUNA-2 在理解与生成任务中表现强劲,经常超越或与其他最先进的统一多模态模型竞争,尤其在像素空间设置下。该模型展现出鲁棒的多模态对齐能力与有效的学习动态,在使用平衡数据比例与基于掩码的特征训练时尤为明显。TUNA-2 在图像理解与生成基准上取得了具有竞争力的结果,经常超越或持平像素空间设置下的最先进模型。该模型在图像重建与生成方面表现优异,其质量与多样性与基于编码器的方法相比具有竞争力。TUNA-2 展现出更准确且鲁棒的多模态对齐能力,尤其在面临误导性语言线索或视觉干扰物的挑战性场景中。
作者评估了多种视觉 tokenizer 的图像重建性能,将统一模型与专用模型进行对比。结果表明,TUNA-R 与 TUNA-2 取得了优异的重建质量,在统一 tokenizer 中名列前茅,并接近 FLUX.1 等专用模型的性能。统一模型的表现优于非 KL 正则化的 VAE 方法,表明像素空间表示学习行之有效。TUNA-R 与 TUNA-2 在统一 tokenizer 中实现了顶级的重建性能。模型的重建质量与 FLUX.1 等专用 tokenizer 相当。TUNA-R 与 TUNA-2 在重建任务中超越了非 KL 正则化的 VAE 方法。
作者基于 GenEval 与 DPG-Bench 评估了 TUNA-2 与 TUNA-R 的图像生成性能,并将其与多种仅生成模型及统一多模态模型进行对比。结果表明,TUNA-R 与 TUNA-2 在这些基准上均取得了最先进的结果,其中 TUNA-R 略优于 TUNA-2。两款模型在两个数据集中均位列顶尖,展现出不依赖视觉编码器或 VAE 的强大竞争力。TUNA-R 与 TUNA-2 在 GenEval 和 DPG-Bench 上实现顶级性能,超越了多个仅生成模型与统一模型。在图像生成基准测试中,TUNA-R 的表现始终略优于 TUNA-2。尽管两款模型完全在像素空间中运行且不依赖视觉编码器或 VAE,但仍取得了具有竞争力的结果。
作者评估了多种视觉 tokenizer 的图像重建性能,对比了专用方法与统一方法。在统一 tokenizer 中,TUNA-2 在 PSNR 与 SSIM 指标上取得最高分,展现出强大的重建质量。它在 PSNR 与 SSIM 上亦优于 VA-VAE 和 DC-AE 等专用 tokenizer,同时在分辨率与 FID 指标上表现出竞争力。TUNA-2 在统一 tokenizer 中斩获最高的 PSNR 与 SSIM 分数,印证了其卓越的重建能力。TUNA-2 在 PSNR 与 SSIM 上超越 VA-VAE 和 DC-AE 等专用 tokenizer,表明像素空间表示学习有效。TUNA-2 保持了具有竞争力的分辨率与 FID 指标,证明了其在多项评估标准下均衡的重建性能。
作者利用 LLM judge 评估了 TUNA-2、TUNA-R 与 TUNA 的图像生成质量与多样性。结果表明,与其他模型相比,TUNA-2 取得了具有竞争力的质量,且多样性显著更高。TUNA-R 在质量方面表现最佳,而 TUNA-2 在两项 judge 评估中均展现出更优的多样性。TUNA-2 实现了具有竞争力的图像质量,其多样性显著高于 TUNA 与 TUNA-R。在两项 LLM judge 评估中,TUNA-R 的质量均优于 TUNA-2。TUNA-2 在多样性方面更受青睐,表明其具备从相同提示词生成更多样化图像的更强能力。
作者针对图像理解、生成、编辑与重建的综合基准测试,评估了 TUNA-2 及其变体,并将其与专用及统一多模态架构进行对比。这些实验验证了模型实现鲁棒多模态对齐与有效像素空间表示学习的能力,即使在面临误导性语言线索或视觉干扰物时仍能保持强劲性能。生成评估揭示出明显的权衡关系:TUNA-R 优先保证输出质量,而 TUNA-2 侧重多样性,两者在不依赖传统视觉编码器或 VAE 的情况下均表现出强劲的竞争力。总体而言,该统一框架被证明具有极高的通用性,平衡的数据采样与基于掩码的训练使其能够在多样化的视觉任务中媲美甚至超越专用系统。