3 个月前

百川全能技术报告

Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen
百川全能技术报告
摘要

GPT-4o 出色的多模态能力与交互体验凸显了其在实际应用中的关键作用,然而目前尚缺乏高性能的开源替代方案。本文提出 Baichuan-Omni,这是首个开源的 7B 参数多模态大语言模型(MLLM),能够同时处理并分析图像、视频、音频与文本等多种模态,同时提供先进的多模态交互体验与卓越的性能表现。我们设计了一种高效的多模态训练框架,以 7B 参数模型为基础,分两个阶段进行:首先实现多模态对齐,随后在音频、图像、视频与文本等多种模态上开展多任务微调。该方法有效赋予语言模型处理视觉与音频数据的能力。在多个全模态(omni-modal)与多模态基准测试中,Baichuan-Omni 均展现出强劲的性能。我们期望本工作能为开源社区提供一个具有竞争力的基准,推动多模态理解与实时交互技术的进一步发展。