HyperAIHyperAI

Command Palette

Search for a command to run...

从像素到文本——迈向大规模原生统一视觉模型

摘要

当前的视觉-语言模型(VLMs)通常借助多阶段对齐将独立的图像编码器与语言解码器拼接,这种模块化架构不可避免地导致跨帧的像素级信号碎片化,并使早期的像素-词交互分散。与此同时,原生VLMs尽管在单张图像上取得了显著性能,但在多图像、视频理解及空间智能领域仍鲜有探索。为此,我们提出NEO-ov,这是一种原生基础模型,能够端到端地学习跨帧与像素-词之间的对应关系,且无需任何外部编码器、辅助适配器或事后融合模块。通过彻底消除模块边界,NEO-ov使得细粒度且统一的时空建模能够在模型内部原生涌现。值得注意的是,NEO-ov在很大程度上缩小了与模块化同类模型的差距,同时在细粒度视觉感知方面表现卓越,这验证了原生“单一视觉”架构不仅切实可行,且在大规模应用下具备竞争力。除实验性能外,我们还系统性地剖析了模型架构并提供了详细的训练方案,以推动后续原生多模态建模的发展。我们的代码与模型已公开于:https://github.com/EvolvingLMMs-Lab/NEO

一句话总结

NEO-ov 是一种原生单视觉基础模型,无需外部编码器、适配器或事后融合机制,即可端到端地学习像素与 token 对应关系及跨帧对应关系。该模型通过消除模块化边界,实现统一的时空建模,在大规模多图像、视频及细粒度视觉感知任务中均展现出具有竞争力的性能。

核心贡献

  • 本文提出 NEO-ov,一种原生视觉语言基础模型。该模型通过移除预训练编码器与适配器,在单一整体骨干网络中统一了空间与时空建模。通过对原始输入进行端到端的跨帧与像素- token 对应关系学习,该架构保留了细粒度视觉信号,以支持统一的时空推理。
  • 基准评估表明,该免编码器模型在多种多模态任务中超越了现有的原生视觉语言模型,并接近基于编码器的竞争模型。统一的表示空间能够捕捉底层几何感知、运动动力学及长距离视觉依赖关系,在无需碎片化特征对齐的情况下提供稳健的空间智能。
  • 本研究提供了系统的架构分析与详细的训练配方,记录了原生多模态建模的设计选择与优化策略。这些贡献验证了原生架构在大规模应用中的可行性,并促进了统一视觉语言系统的后续研究。

引言

当前的视觉语言模型日益被部署于视频理解、多图像分析及空间推理等复杂多模态应用中,但它们仍依赖模块化编码器-解码器架构,将预训练视觉编码器与大语言模型相连接。这种碎片化设计迫使视觉信号过早压缩,丢弃了细粒度的空间与纹理细节,并引发效率与可扩展性瓶颈,阻碍了真正的跨模态融合。为突破这些限制,本文提出 NEO-ov,一种完全移除外部编码器与适配器的原生单视觉基础模型。通过在原始输入上端到端训练单一整体骨干网络,该模型原生地学习像素- token 对应关系与时空动态特性,在各类基准测试中提供具有竞争力的性能,同时为未来统一多模态系统提供清晰的架构蓝图。

数据集

  • 数据集构成与来源: 所有资源均选自具有明确使用政策规定的开源数据集。
  • 各子集的关键细节: 提供的摘录未说明子集规模、具体来源或过滤规则。
  • 数据使用与训练配置: 文本未概述训练集划分、混合比例或数据如何整合至模型中。
  • 处理与元数据: 提供的部分未描述任何裁剪策略、元数据构建或额外的预处理步骤。
  • 其他流程说明: 研究明确说明大语言模型仅作为语法与风格润色的写作辅助工具。所有方法论、实验与结论内容均由人类作者独立开发与验证。

方法

研究利用统一的原生视觉语言骨干网络,将自回归建模扩展至单图像、多图像与视频输入,形成支持跨图像推理、时间理解与空间定位的整体架构。该框架将图像、视频输入与文本处理为统一的 token 序列,并由单一仅解码器模型联合处理。图像输入通过一个包含两层卷积与 GELU 激活函数的轻量级 patch embedding 层编码为视觉 token,为每个 32×3232 \times 3232×32 区域生成一个视觉 token。文本输入使用原始语言模型的 tokenizer 进行分词。视觉 token 被 <img></img> 分隔符包裹,并与文本 token 拼接,形成单一序列供共享骨干网络处理。该方法在单一原生框架内实现了高效的像素与 token 对齐以及像素-像素对齐,并支持时空推理。

参考框架示意图,了解图像与视频输入(以原始分辨率表示)如何分别与文本一起,通过 patch embedding 层与词嵌入层进行处理,从而形成统一的 token 序列并输入至原生视觉语言骨干网络。

模型采用 THW 解耦注意力机制,注意力头明确设计为具有独立的时间(TTT)、高度(HHH)与宽度(WWW)维度。该设计在保留基础语言模型时间建模能力的同时,增加了专用的空间建模。对于 token iiijjj,Query 与 Key 特征被分解为 TTTHHHWWW 分量,其相关性计算为各维度内积之和。TTT 分支捕捉文本顺序、跨图像关系与跨帧依赖,而 HHHWWW 分支对二维空间结构进行建模。该机制辅以原生旋转位置编码(Native-RoPE),为时间与空间位置分配独立索引。文本 token 仅保留时间索引,空间索引设为零;图像 token 在同一图像内共享统一的时间索引,并使用 hih_ihiwiw_iwi 编码其空间坐标。时间索引在各模态间保持连续,而空间索引在每张图像内独立定义。

如图所示,原生旋转位置编码系统通过 THW 感知频率通道与索引分配,将图像内的双向空间交互与文本及视频帧间的因果依赖相统一,从而实现单图像、多图像与视频理解的统一建模。

针对多图像输入,提示词中的每个 <img> token 被替换为独立的视觉片段,在保持文本顺序的同时,将每张图像表示为序列中的独立单元。该设计允许图像以任意分辨率进行编码,使视觉 token 的数量自适应图像的空间尺寸,这对细粒度比较与空间敏感型任务十分有益。针对视频输入,模型将视频表示为按时间排序的采样帧序列,每帧被序列化为带有时间戳的图像单元。系统会添加一个全局前缀,用于编码视频时长、采样帧数与采样率,并包含明确的时间戳以辅助时间定位与跨帧推理。

NEO-ov 的训练流程包含三个渐进阶段。在预训练阶段,模型建立基础视觉感知,并将视觉表示与语言骨干网络的语义空间对齐。优化过程仅限于 patch embedding 层、预缓冲层及新引入的 QK 相关参数,采用自回归下一 token 预测目标。中期训练阶段扩展时空推理能力,并增强对高分辨率视觉内容的感知,所有模型层在多样化数据集上联合优化。上下文长度逐步延长,并使用统一的数据类型混合以提升稳定性与泛化能力。在监督微调阶段,模型基于高质量指令微调数据进行优化,采用端到端优化策略以强化细粒度感知、长上下文推理与时空动态建模。

实验

评估工作涵盖图像理解、视频理解与空间智能任务,将 NEO-ov 与原生及模块化视觉语言架构进行基准对比,并对注意力机制与训练进程开展消融实验。结果表明,原生端到端建模成功保留了细粒度视觉上下文与长距离依赖关系,在无需外部编码器的情况下实现稳健推理与有效幻觉抑制。此外,深层像素级交互与渐进式训练阶段持续强化空间感知与跨模态泛化能力,共同验证了统一原生多模态框架的可扩展性与竞争优势。

研究在图像与视频理解基准上评估 NEO-ov,并将其与模块化及原生视觉语言模型进行对比。结果显示,NEO-ov 在多项任务中取得具有竞争力或更优的性能,尤其在视频理解与多图像推理方面,充分证明其原生架构的有效性。该模型持续超越早期原生模型,并在时间推理与长上下文理解等关键领域达到或超越模块化对应模型。在图像与视频理解基准上,NEO-ov 相较于模块化与原生视觉语言模型均展现出具有竞争力或更优的表现。在视频理解任务中,NEO-ov 取得显著增益,尤其在长上下文与时间推理方面,性能优于多个模块化模型。在不同规模与训练阶段中,NEO-ov 均表现出持续改进,表明多模态能力的渐进式训练策略有效。

研究在多项基准上评估 NEO-ov,并将其性能与专用模型及通用模型进行对比。结果表明,NEO-ov 取得具有竞争力或更优的性能,尤其在空间智能任务中表现突出,并在不同模型规模下展现出强大的可扩展性。该模型在多项基准上持续超越或持平领先替代方案,凸显其在捕捉细粒度视觉与空间表示方面的有效性。在多项空间智能基准上,NEO-ov 相较于空间专用模型取得具有竞争力或更优的性能。在若干任务中,NEO-ov 优于通用模型,尤其在空间推理与几何理解方面。该模型在不同规模与训练阶段均呈现一致的性能提升,表明其具备强大的可扩展性与泛化能力。

研究在图像理解、视频理解与空间智能等多个领域评估 NEO-ov,相较于原生与模块化 VLM 展现出强劲性能。结果表明,渐进式训练阶段提升所有基准的性能,且在小规模模型中增益更为显著。该模型在推理密集型与幻觉敏感型任务中取得具有竞争力或更优的结果,凸显原生端到端建模的有效性。在多样化基准上,NEO-ov 相较于原生与模块化 VLM 均取得具有竞争力或更优的性能。渐进式训练阶段持续改善性能,小规模模型表现出更明显的提升。NEO-ov 在推理密集型与幻觉敏感型任务中表现优异,证明原生建模策略的有效性。

研究在图像理解、OCR 识别、视频理解与空间智能等多项基准上评估 NEO-ov。结果显示,NEO-ov 在各类任务中均取得优异表现,尤其在推理密集型与幻觉敏感型场景中表现突出。相较于原生与模块化视觉语言模型,该模型展现出具有竞争力或更优的性能,特别是在需要细粒度视觉与空间理解的任务中。在推理密集型与幻觉敏感型基准上,NEO-ov 表现强劲,超越早期原生与模块化模型。在 OCR 识别与空间智能任务中,NEO-ov 优于其他模型,凸显其捕捉细粒度视觉与空间表示的能力。该模型在不同规模与训练阶段均呈现一致的性能提升,表明其具备高效的学习与泛化能力。

研究对比多模态模型的不同架构方法,重点考察带有预缓冲机制的原生架构与传统基于编码器方法的性能差异。结果表明,预缓冲方法在多项任务中取得具有竞争力或更优的性能,尤其在 OCR 与空间智能方面,表明直接像素级交互能够增强视觉理解。研究同时指出,渐进式训练阶段提升模型性能,小规模模型增益更为明显,说明多模态能力学习有效。在 OCR 与空间智能任务中,预缓冲机制优于基于编码器的方法,表明其对细粒度视觉细节与空间依赖的处理能力更强。具备直接像素-像素与像素- token 交互的原生架构在空间智能基准上表现强于基于编码器的模型。渐进式训练阶段带来一致的性能提升,小规模模型变体展现出更显著的增益。

研究在涵盖多图像与视频理解、空间智能及 OCR 识别的基准上评估 NEO-ov,并将其与模块化、原生及基于编码器的视觉语言模型进行对比。这些实验验证了采用预缓冲机制实现直接像素级交互的原生架构,以及渐进式训练策略的有效性。定性分析表明,该模型持续交付具有竞争力或更优的结果,尤其在时间推理、空间理解与幻觉敏感型场景中表现卓越。总体而言,研究结果表明所提方法具备强大的可扩展性,能有效捕捉细粒度视觉表示,并在不同模型规模下实现可靠的泛化。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供