Cache KV
KV Cache, abréviation de Key-value Cache, est une technologie couramment utilisée pour optimiser les performances de raisonnement des grands modèles. Cette technologie peut améliorer les performances de raisonnement en échangeant de l’espace contre du temps sans affecter la précision des calculs. KV Cache est une technologie d'ingénierie importante pour optimiser les performances de raisonnement du transformateur.Tous les principaux frameworks d'inférence l'ont implémenté et encapsulé (par exemple, la fonction generate de la bibliothèque Transformers l'a encapsulé, et les utilisateurs n'ont pas besoin de transmettre manuellement past_key_values) et il est activé par défaut (use_cache=True dans le fichier config.json).
Références
【1】https://zhuanlan.zhihu.com/p/630832593