Command Palette
Search for a command to run...
Haiwen Diao Mingxuan Li Silei Wu Linjun Dai Xiaohua Wang Hanming Deng Lewei Lu Dahua Lin Ziwei Liu

摘要
原生视觉-语言模型(Native Vision-Language Models, VLMs)的架构体系正迅速崛起,成为传统模块化VLM的有力竞争者,其发展得益于不断演进的模型架构与训练范式。然而,这一领域在广泛探索与推广过程中仍面临两大持续存在的挑战:其一,原生VLM与模块化模型之间存在哪些根本性差异?这些障碍在多大程度上可被突破?其二,如何使原生VLM的研究更具可及性与普惠性,从而加速该领域的整体进展?本文旨在厘清上述挑战,并提出构建原生VLM的指导原则。具体而言,一个理想的原生VLM应具备以下三个核心特性:(i)在统一的语义空间中高效对齐像素与文本的表示;(ii)无缝融合此前分离的视觉与语言模块的优势;(iii)天然具备多种跨模态特性,支持统一的视觉-语言编码、对齐与推理。基于此,我们提出了NEO——一种从基础原理出发构建的新型原生VLM家族,能够在多样化的现实应用场景中与顶尖的模块化模型相媲美。仅需390万张图像-文本样本,NEO即可从零开始高效构建视觉感知能力,同时通过我们精心设计的统一且紧密耦合的模型结构,有效缓解模型内部的视觉-语言冲突。我们视NEO为构建可扩展、高性能原生VLM的基石,并配套提供丰富可复用的组件,以推动一个低成本、可扩展的生态系统发展。相关代码与模型已公开发布于:https://github.com/EvolvingLMMs-Lab/NEO。