HyperAI超神经

Seed1.5-VL Technical Report

Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang et al
发布日期: 5/14/2025
Seed1.5-VL Technical Report
摘要

我们提出了 Seed1.5-VL,这是一个视觉语言基础模型,旨在提升通用多模态理解和推理能力。Seed1.5-VL 由一个 532M 参数的视觉编码器和一个拥有 20B 活动参数的混合专家 (MoE) 法学语言模型 (LLM) 组成。尽管其架构相对紧凑,但它在众多公共 VLM 基准测试和内部评估套件中均表现出色,在 60 个公共基准测试中的 38 个中取得了最佳性能。此外,在 GUI 控制和游戏等以代理为中心的任务中,Seed1.5-VL 的表现优于包括 OpenAI CUA 和 Claude 3.7 在内的领先多模态系统。除了视觉和视频理解之外,它还展现出强大的推理能力,使其在视觉谜题等多模态推理挑战中尤为有效。我们相信,这些能力将赋能更广泛的应用,使其能够应对各种任务。本报告主要对Seed1.5-VL在模型设计、数据构建和训练等各个阶段的构建经验进行全面梳理,希望能够对后续研究有所启发。Seed1.5-VL现已开放访问,请访问https://www.volcanoengine.org/docs/latest/https/ ...