KV-Cache
KV Cache, kurz für Key-Value Cache, ist eine häufig verwendete Technologie zur Optimierung der Argumentationsleistung großer Modelle. Diese Technologie kann die Denkleistung verbessern, indem sie Raum gegen Zeit austauscht, ohne die Berechnungsgenauigkeit zu beeinträchtigen. KV Cache ist eine wichtige technische Technologie zur Optimierung der Transformer-Argumentationsleistung.Alle wichtigen Inferenz-Frameworks haben es implementiert und gekapselt (beispielsweise hat die Generate-Funktion der Transformers-Bibliothek es gekapselt, und Benutzer müssen past_key_values nicht manuell übergeben) und es ist standardmäßig aktiviert (use_cache=True in der Datei config.json).
Verweise
【1】https://zhuanlan.zhihu.com/p/630832593