HyperAI超神经
4 days ago

快手 Keye-VL 技术报告

Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang
快手 Keye-VL 技术报告
摘要

虽然多模态大语言模型(MLLMs)在静态图像上展示了显著的能力,但它们在理解和处理当今数字环境中占主导地位的动态、信息密集型短视频方面往往表现不佳。为了弥补这一差距,我们推出了快手Keye-VL,这是一款具有80亿参数的多模态基础模型,旨在实现短视频理解领域的前沿性能,同时保持强大的通用视觉-语言能力。Keye-VL的开发基于两个核心支柱:一个超过6000亿个标记的大规模、高质量数据集,特别强调视频内容;以及一种创新的训练方法。该训练方法包括四个阶段的预训练过程,以确保视觉-语言对齐的稳固性,随后是一个细致的两阶段后训练过程。第一阶段后训练旨在增强基础能力,如指令遵循;第二阶段则专注于激发高级推理能力。在这一阶段,我们的关键创新之一是五模式“冷启动”数据混合(five-mode "cold-start" data mixture),其中包括“思考”、“非思考”、“自动思考”、“带图思考”和高质量视频数据。这种混合数据教会模型何时以及如何进行推理。后续的强化学习(RL)和对齐步骤进一步提升了这些推理能力,并纠正了模型的一些异常行为,例如重复输出。为了验证我们的方法,我们进行了广泛的评估,结果显示Keye-VL在公开视频基准测试中达到了最先进的水平,并且在通用图像任务中仍然表现出色(图1)。此外,我们还开发并发布了KC-MMBench,这是一个针对现实世界短视频场景的新基准测试,在该基准测试中Keye-VL显示出明显的优势。