将AI效率从模型中心转向数据压缩为中心
Liu, Xuyang ; Wen, Zichen ; Wang, Shaobo ; Chen, Junjie ; Tao, Zhishan ; Wang, Yubo ; Jin, Xiangqi ; Zou, Chang ; Wang, Yiyu ; Liao, Chenfei ; Zheng, Xu ; Chen, Honggang ; Li, Weijia ; Hu, Xuming ; He, Conghui ; Zhang, Linfeng
发布日期: 5/27/2025

摘要
大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的迅速发展历来依赖于通过增加参数数量从数百万到数百亿来推动性能提升的模型中心扩展方法。然而,随着我们逐渐接近硬件对模型大小的极限,主要的计算瓶颈已经根本性地转移到了长序列自注意力机制的二次成本上,这一问题现在由超长文本上下文、高分辨率图像和扩展视频所驱动。在本文中,我们认为高效人工智能的研究重点正在从模型中心压缩转向数据中心压缩。我们将标记压缩定位为新的前沿领域,它通过减少模型训练或推理过程中的标记数量来提高人工智能的效率。通过全面分析,我们首先考察了不同领域中长上下文人工智能的最新进展,并建立了一个统一的数学框架来描述现有的模型效率策略,展示了为什么标记压缩代表了解决长上下文开销的关键范式转变。随后,我们系统地回顾了标记压缩的研究现状,分析了其基本优势,并识别了其在各种场景下的显著优点。此外,我们深入探讨了当前标记压缩研究面临的挑战,并概述了未来有前景的发展方向。最终,我们的工作旨在提供一种关于人工智能效率的新视角,综合现有研究成果,并激发创新性的发展以应对上下文长度增加给人工智能社区带来的挑战。