1 个月前

缓存到缓存：大型语言模型之间的直接语义通信

Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

摘要

多大语言模型（Multi-LLM）系统通过整合多种大型语言模型的互补优势，在性能与效率方面实现了单一模型无法达到的提升。在现有设计中，语言模型之间通过文本进行通信，迫使内部表示必须转换为输出的标记序列。这一过程不仅导致丰富的语义信息丢失，还引入了逐标记生成带来的延迟。针对这些局限性，我们提出一个问题：大语言模型能否超越文本进行通信？基于“Oracle”实验的结果表明，通过增强KV缓存（KV-Cache）的语义表达能力，可在不增加缓存大小的前提下提升响应质量，从而验证了KV缓存作为模型间通信有效媒介的可行性。因此，我们提出了“缓存到缓存”（Cache-to-Cache, C2C）这一全新范式，实现大语言模型之间的直接语义通信。C2C利用神经网络将源模型的KV缓存与目标模型的KV缓存进行投影与融合，从而实现语义的直接传递。同时，引入可学习的门控机制，动态选择从缓存通信中获益的目标层。与传统的文本通信方式相比，C2C能够充分利用两个模型深层且专业化的语义信息，同时避免显式的中间文本生成过程。实验结果表明，C2C在平均准确率上比单一模型高出8.5%至10.5%；相较于文本通信范式，进一步提升约3.0%至5.0%，同时平均实现2.0倍的延迟加速。相关代码已开源，地址为：https://github.com/thu-nics/C2C。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

缓存到缓存：大型语言模型之间的直接语义通信

Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

摘要

用 AI 构建 AI

Hyper Newsletters