2 days ago
当 Tokens 讲得太多:跨图像、视频和音频的多模态长上下文 Tokens 压缩综述
Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang

摘要
多模态大语言模型(Multimodal Large Language Models, MLLMs)已取得显著进展,这在很大程度上得益于其处理日益长且复杂的上下文的能力,例如高分辨率图像、长视频序列以及长音频输入。尽管这种能力显著提升了MLLM的性能,但也带来了巨大的计算挑战,主要原因是自注意力机制在处理大量输入标记时具有二次复杂度。为缓解这些瓶颈,标记压缩已成为一种有前景且关键的方法,在训练和推理过程中都能有效减少标记数量。在本文中,我们首次对多模态长上下文标记压缩这一迅速发展的领域进行了系统性的综述与总结。我们认识到,有效的压缩策略与每种模态的独特特征和冗余性密切相关,因此我们根据现有方法的主要数据关注点进行分类,使研究人员能够快速获取并学习针对其特定兴趣领域的技术:(1)以图像为中心的压缩,用于处理视觉数据中的空间冗余;(2)以视频为中心的压缩,用于解决动态序列中的时空冗余;(3)以音频为中心的压缩,用于处理声学信号中的时间与频谱冗余。除了基于模态的分类,我们还进一步从其底层机制出发,对方法进行了深入分析,包括基于变换的、基于相似性的、基于注意力的以及基于查询的压缩方法。通过提供全面且结构化的综述,本文旨在整合当前的研究进展,识别关键挑战,并为这一快速发展的领域指明未来的研究方向。我们还维护了一个公开的代码仓库,以持续追踪并更新该有前景领域的最新研究成果。