苹果发布全新Manzano模型,实现图像理解与生成双重突破
苹果公司宣布正在研发名为Manzano的新型图像模型,该模型具备图像理解与生成的双重能力。这一技术突破解决了当前大多数开源模型在两项任务间难以兼顾的难题,而主流商业系统如OpenAI的GPT-4o和谷歌的Nano Banana则已实现较好平衡。 Manzano目前尚未向公众发布,也无公开演示。苹果研究人员通过一篇论文展示了低分辨率图像样本,用于应对复杂提示。测试结果显示,Manzano在三项挑战性任务中的表现与GPT-4o和谷歌Nano Banana相当。 苹果指出,多数开源模型在图像分析和图像生成之间存在根本性权衡:连续数据流更适合理解图像,而离散标记则用于生成图像。传统做法是分别使用不同工具处理,容易在语言模型内部引发冲突。 为解决这一问题,Manzano采用“混合图像分词器”设计。该系统通过一个共享的图像编码器,同时输出两种类型的标记:连续标记以浮点数形式保留图像语义信息,用于理解;离散标记则将图像划分为固定类别,用于生成。由于两路输出源自同一编码器,任务间的冲突显著减少。 该模型架构包含三部分:混合分词器、统一语言模型,以及独立的图像解码器。苹果开发了三个不同参数规模的解码器(0.9亿、1.75亿和3.52亿),支持从256到2048像素的图像分辨率。 训练过程分三阶段进行,共使用23亿张图像-文本对和10亿个内部文本-图像对,总计1.6万亿个标记。部分数据来自DALL-E 3和ShareGPT-4o等合成来源。 在自测基准中,Manzano表现突出,尤其在ScienceQA、MMMU和MathVista等文本密集型任务中,300亿参数版本表现优异。模型性能随规模提升而持续增强,30亿参数版本在多项任务上比最小版本高出10分以上。 在九项多模态基准测试中,Manzano 3B和30B版本均位列前茅,与顶尖模型抗衡。与专用系统相比,其性能差距不足1分。在图像生成方面,Manzano同样表现强劲,可精准执行复杂指令、风格迁移、图像修复、扩展及深度估计等任务。 苹果认为,Manzano的模块化设计为未来多模态AI发展提供了新思路,各组件可独立更新,融合不同AI研究方法。尽管如此,苹果的自研基础模型仍落后于行业领先者。为弥补差距,苹果计划在iOS 26中引入OpenAI的GPT-5,作为Apple Intelligence的一部分。Manzano展示了技术潜力,但其能否真正降低对外部模型的依赖,仍有待未来版本验证。
