Command Palette
Search for a command to run...
Konfidenz ist alles, was du brauchst: Few-Shot-RL Feinabstimmung von Sprachmodellen
Konfidenz ist alles, was du brauchst: Few-Shot-RL Feinabstimmung von Sprachmodellen
Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan
Zusammenfassung
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zum Schließen aus, dennoch bleibt die Nachverarbeitung nach dem Training entscheidend, um ihr Verhalten mit den Aufgabenzielen zu alignieren. Bestehende Methoden des Verstärkungslernens (RL) hängen oft von kostspieligen menschlichen Annotationen oder externen Belohnungsmodellen ab. Wir schlagen Reinforcement Learning via Self-Confidence (RLSC) vor, eine Methode, die das eigene Vertrauen des Modells als Belohnungssignale verwendet – wodurch die Notwendigkeit für Labels, Präferenzmodelle oder Belohnungsentwicklung eliminiert wird. Angewendet auf Qwen2.5-Math-7B mit nur 16 Proben pro Frage und 10 oder 20 Trainingsdurchläufen verbessert RLSC die Genauigkeit um +13,4 % bei AIME2024, +21,2 % bei MATH500, +21,7 % bei Minerva Math, +20,8 % bei Olympiadbench und +9,7 % bei AMC23. RLSC bietet eine einfache und skalierbare Nachverarbeitungsmethode für Inferenzmodelle, die nur eine geringe Anzahl von Proben und unlabeled Supervision erfordert.