Command Palette

Search for a command to run...

1 个月前

缓存到缓存:大型语言模型之间的直接语义通信

Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

缓存到缓存:大型语言模型之间的直接语义通信

摘要

多大语言模型(Multi-LLM)系统通过整合多种大型语言模型的互补优势,在性能与效率方面实现了单一模型无法达到的提升。在现有设计中,语言模型之间通过文本进行通信,迫使内部表示必须转换为输出的标记序列。这一过程不仅导致丰富的语义信息丢失,还引入了逐标记生成带来的延迟。针对这些局限性,我们提出一个问题:大语言模型能否超越文本进行通信?基于“Oracle”实验的结果表明,通过增强KV缓存(KV-Cache)的语义表达能力,可在不增加缓存大小的前提下提升响应质量,从而验证了KV缓存作为模型间通信有效媒介的可行性。因此,我们提出了“缓存到缓存”(Cache-to-Cache, C2C)这一全新范式,实现大语言模型之间的直接语义通信。C2C利用神经网络将源模型的KV缓存与目标模型的KV缓存进行投影与融合,从而实现语义的直接传递。同时,引入可学习的门控机制,动态选择从缓存通信中获益的目标层。与传统的文本通信方式相比,C2C能够充分利用两个模型深层且专业化的语义信息,同时避免显式的中间文本生成过程。实验结果表明,C2C在平均准确率上比单一模型高出8.5%至10.5%;相较于文本通信范式,进一步提升约3.0%至5.0%,同时平均实现2.0倍的延迟加速。相关代码已开源,地址为:https://github.com/thu-nics/C2C。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
缓存到缓存:大型语言模型之间的直接语义通信 | 论文 | HyperAI超神经