HyperAI超神经

KV Cache

KV Cache 的全称是 Key-value Cache，它是大模型推理性能优化的一个常用技术，该技术可以在不影响任何计算精度的前提下，通过空间换时间思想，提高推理性能。 KV Cache 是 Transformer 推理性能优化的一项重要工程化技术，各大推理框架都已实现并将其进行了封装（例如 transformers 库 generate 函数已经将其封装，用户不需要手动传入 past_key_values）并默认开启（config.json 文件中 use_cache=True）。

参考来源

【1】https://zhuanlan.zhihu.com/p/630832593