HyperAI초신경

KV 캐시

KV 캐시는 키-값 캐시의 약자로, 대규모 모델의 추론 성능을 최적화하는 데 일반적으로 사용되는 기술입니다. 이 기술은 계산 정확도에 영향을 주지 않고 공간을 시간으로 교환하여 추론 성능을 향상시킬 수 있습니다. KV 캐시는 Transformer 추론 성능을 최적화하는 데 중요한 엔지니어링 기술입니다.모든 주요 추론 프레임워크는 이를 구현하고 캡슐화했습니다(예를 들어, transformers 라이브러리의 generate 함수는 이를 캡슐화했으며, 사용자는 past_key_values를 수동으로 전달할 필요가 없습니다). 또한 이 기능은 기본적으로 활성화되어 있습니다(config.json 파일에서 use_cache=True).

참고문헌

【1】https://zhuanlan.zhihu.com/p/630832593