视觉语言模型的最新进展:更小、更智能、多功能
自2024年4月以来,视觉语言模型(VLMs)的发展势头迅猛,涌现出许多新技术、新架构和新能力。本文回顾了过去一年中VLM领域的关键变化、趋势和重大进展。 任何模态到任何模态模型 这些模型能够接收图像、文本或音频,并输出任意模态的内容。它们通过在不同模态之间建立对齐关系来实现这一点,例如“dog”这个词可以与狗的图像或发音相关联。Meta推出的Chameleon是最早尝试构建任何模态到任何模态模型之一,尽管没有开放图像生成功能。Alpha-VLLM随后发布了Lumina-mGPT,增加了图像生成能力。目前,Qwen 2.5 Omni是最先进的任何模态到任何模态模型,能够支持多种模态的输入和输出。 推理模型 2025年初之前,唯一的开源推理VLM是阿里巴巴Qwen团队开发的QVQ-72B-preview。今年,Moonshot AI团队推出了Kimi-VL-A3B-Thinking,这是一个基于Chain-of-Thought微调并进一步强化对齐的模型,能够处理复杂的多模态推理任务。此外,它还具备处理长视频、PDFs和游戏操作的能力。 紧凑但功能强大的模型 过去,社区通过增加参数数量和高质量合成数据来提升模型智能。但随着基准测试趋于饱和,这种方法回报递减。因此,研究人员开始通过蒸馏等方法缩小模型规模,使其能够在消费级GPU上运行。Hugging Face推出了HuggingSnap iPhone应用,展示了这些小模型如何在本地设备上实现视频理解。Google DeepMind的gemma3-1b-it模型也值得关注,它支持140多种语言,具备强大的推理能力。 Mixture-of-Experts 解码器 Mixture-of-Experts (MoE)模型通过动态选择和激活最相关的子模型来提高性能和效率。这种机制使得模型在使用较少计算资源的情况下达到更好的效果。MoE模型通常在Transformer架构中通过替换标准的前馈网络层来实现。Qwen 2.5 VL等模型采用了这种方式,提高了推理任务的表现。 视觉语言行为模型 这些模型将VLM的功能扩展到了机器人领域,能够通过对图像和文本指令的理解来生成相应的动作指令。例如,物理智能实验室推出的π0和π0-FAST模型展示了在复杂现实任务中的强大表现,如折叠衣物、整理桌子等。NVIDIA的GR00T N1模型也是一个优秀的通用机器人VLM基础模型,支持多种行动和状态表示。 专门能力模型 目标检测、分割和计数 这类模型可以识别图像中的特定对象,并生成定位信息。PaliGemma是这一领域最早的尝试之一,能够处理分割和检测任务。随后,ByteDance的UI-TARS-1.5模型在浏览器导航等方面表现出色,支持对UI元素的检测、指向和计数。 多模态安全模型 安全模型用于过滤VLM的输入和输出,防止有害内容的传播。Google推出的ShieldGemma 2模型是首个开放的多模态安全模型,可以在给出特定政策的情况下判断图像是否安全。Meta的Llama Guard 4则是一个密集型多模态多语言安全模型,适用于更广泛的推理场景。 多模态检索增强生成(RAG) 多模态RAG旨在处理复杂文档,如PDF,通常分为三个步骤:解析文档为文本、使用检索器和重排器找到最相关的段落、将相关上下文和查询传递给LLM生成答案。多模态检索器可以通过图像和文本编码器生成统一的嵌入向量,从而绕过繁琐的解析步骤。ColBERT-like模型通过逐个token计算相似度的方式,捕获更多细微差别,但代价是要消耗更多的内存。 新的对齐技术 直接偏好优化(DPO)是一种替代的传统微调方法,通过比较和排名候选响应来优化模型的输出。TRL库提供了针对VLM的DPO支持。例如,RLAIF-V数据集就包含了大量的图像+问题对及其相应的优选和非优选答案,用于训练模型生成符合偏好的响应。 新的基准 随着模型性能的提升,原有的多模态基准测试如MMMU和MMBench已经变得不够全面。新的基准包括MMT-Bench和MMMU-Pro。MMT-Bench包含了31325个多选择视觉问题,涵盖了多个高级多模态任务,如OCR、视觉识别和检索。MMMU-Pro则更加复杂,增加了真实的模拟环境,用以评估模型在实际条件下的表现。 总结 过去一年,VLM领域取得了显著进展,出现了各种创新型模型和架构,如任何模态到任何模态模型、推理模型、紧湊但功能强大的模型、Mixture-of-Experts 解码器、视觉语言行为模型以及专门能力模型。这些进展不仅提升了模型性能,还扩展了许多新的应用场景。例如,VLMs现在可以处理更复杂的多模态任务,如目标检测和分割,还可以用于机器人和网页自动化等领域。 业内评价及公司背景 业内人士普遍认为,多模态学习是未来AI发展的必然趋势,因为它能够更好地学习深层次的表征。阿里巴巴旗下的Qwen团队和Meta的AI研究人员是该领域的重要贡献者。Hugging Face作为开源机器学习社区的领导者,也在推动多模态模型的发展和应用。Google DeepMind则是技术创新的先锋,不断推出具备前沿能力的模型。ByteDance在机器人和用户界面方向上也有重要的突破。总体来看,VLM的快速发展得到了各大科技公司的大力支持。
