HyperAIHyperAI

Command Palette

Search for a command to run...

KV-Cache-Steuerung zur Erzeugung von Schlußfolgerungen in kleinen Sprachmodellen

Max Belitsky Dawid J. Kopiczko Michael Dorkenwald M. Jehanzeb Mirza Cees G. M. Snoek Yuki M. Asano

Zusammenfassung

Wir schlagen Cache-Steuerung vor, eine leichte Methode zur impliziten Steuerung von Sprachmodellen durch ein einziges Eingreifen direkt im Key-Value-Cache. Um ihre Wirksamkeit zu überprüfen, wenden wir die Cache-Steuerung an, um in kleinen Sprachmodellen Kette-von-Gedanken-Schlußfolgerungen (chain-of-thought reasoning) zu induzieren. Unser Ansatz nutzt Schlußfolgerungsverläufe, die von GPT-4o generiert wurden, um Steuervektoren zu konstruieren, die das Modellverhalten in Richtung einer expliziteren, mehrstufigen Schlußfolgerung verschieben, ohne Feinabstimmung oder Änderungen der Anfrage erforderlich zu machen. Experimentelle Auswertungen anhand verschiedener Schlußfolgerungsbenchmarks zeigen, dass die Cache-Steuerung sowohl die qualitative Struktur der Modellschlußfolgerungen als auch die quantitative Aufgabenleistung verbessert. Im Vergleich zu früheren Aktivierungssteuerungstechniken, die kontinuierliche Eingriffe erfordern, bietet unsere einmalige Cache-Steuerung erhebliche Vorteile hinsichtlich Hyperparameter-Stabilität, Effizienz während der Inferenz und Einfachheit der Integration. Dies macht sie zu einer robusteren und praktischeren Lösung für kontrollierte Generierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
KV-Cache-Steuerung zur Erzeugung von Schlußfolgerungen in kleinen Sprachmodellen | Paper | HyperAI