HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten

Abstract

LLMs werden oft mit RL aus menschlicher oder künstlicher Intelligenz-Feedback trainiert. Allerdings komprimieren solche Verfahren meist differenzierte Rückmeldungen in skalare Belohnungen, wodurch ein Großteil ihrer Reichtümlichkeit verloren geht und eine Skalenungleichgewicht entsteht. Wir schlagen vor, sprachliche Rückmeldungen als Bedingungssignal zu behandeln. Inspiriert von Sprachprioritäten in der Text-zu-Bild-Generierung, die es ermöglichen, aus unbekannten Eingaben neue Ausgaben zu erzeugen, führen wir die feedbackbedingte Politik (Feedback-Conditional Policy, FCP) ein. FCP lernt direkt aus Antwort-Rückmeldung-Paaren und approximiert die feedbackbedingte Posterior mittels Maximum-Likelihood-Schätzung auf Offline-Daten. Darüber hinaus entwickeln wir eine Online-Bootstrapping-Phase, in der die Politik unter positiven Bedingungen generiert und frische Rückmeldungen erhält, um sich selbst zu verfeinern. Dies verändert die Perspektive des feedbackgesteuerten Lernens von der Belohnungs-Optimierung hin zur bedingten Generierung und bietet eine ausdrucksstärkere Methode, damit LLMs direkt aus sprachlichen Rückmeldungen lernen können. Unser Code ist unter https://github.com/sail-sg/feedback-conditional-policy verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten | Forschungsarbeiten | HyperAI