KV Cache

KV Cache 的全称是 Key-value Cache,它是大模型推理性能优化的一个常用技术,该技术可以在不影响任何计算精度的前提下,通过空间换时间思想,提高推理性能。 KV Cache 是 Transformer 推理性能优化的一项重要工程化技术,各大推理框架都已实现并将其进行了封装(例如 transformers 库 generate 函数已经将其封装,用户不需要手动传入 past_key_values)并默认开启(config.json 文件中 use_cache=True)。

参考来源

【1】https://zhuanlan.zhihu.com/p/630832593