HyperAIHyperAI

Command Palette

Search for a command to run...

Konfidenz ist alles, was du brauchst: Few-Shot-RL Feinabstimmung von Sprachmodellen

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

Zusammenfassung

Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zum Schließen aus, dennoch bleibt die Nachverarbeitung nach dem Training entscheidend, um ihr Verhalten mit den Aufgabenzielen zu alignieren. Bestehende Methoden des Verstärkungslernens (RL) hängen oft von kostspieligen menschlichen Annotationen oder externen Belohnungsmodellen ab. Wir schlagen Reinforcement Learning via Self-Confidence (RLSC) vor, eine Methode, die das eigene Vertrauen des Modells als Belohnungssignale verwendet – wodurch die Notwendigkeit für Labels, Präferenzmodelle oder Belohnungsentwicklung eliminiert wird. Angewendet auf Qwen2.5-Math-7B mit nur 16 Proben pro Frage und 10 oder 20 Trainingsdurchläufen verbessert RLSC die Genauigkeit um +13,4 % bei AIME2024, +21,2 % bei MATH500, +21,7 % bei Minerva Math, +20,8 % bei Olympiadbench und +9,7 % bei AMC23. RLSC bietet eine einfache und skalierbare Nachverarbeitungsmethode für Inferenzmodelle, die nur eine geringe Anzahl von Proben und unlabeled Supervision erfordert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp