vor einem Monat

Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten

Details der Forschungsarbeit anzeigen Code anzeigen

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten

Abstract

LLMs werden oft mit RL aus menschlicher oder künstlicher Intelligenz-Feedback trainiert. Allerdings komprimieren solche Verfahren meist differenzierte Rückmeldungen in skalare Belohnungen, wodurch ein Großteil ihrer Reichtümlichkeit verloren geht und eine Skalenungleichgewicht entsteht. Wir schlagen vor, sprachliche Rückmeldungen als Bedingungssignal zu behandeln. Inspiriert von Sprachprioritäten in der Text-zu-Bild-Generierung, die es ermöglichen, aus unbekannten Eingaben neue Ausgaben zu erzeugen, führen wir die feedbackbedingte Politik (Feedback-Conditional Policy, FCP) ein. FCP lernt direkt aus Antwort-Rückmeldung-Paaren und approximiert die feedbackbedingte Posterior mittels Maximum-Likelihood-Schätzung auf Offline-Daten. Darüber hinaus entwickeln wir eine Online-Bootstrapping-Phase, in der die Politik unter positiven Bedingungen generiert und frische Rückmeldungen erhält, um sich selbst zu verfeinern. Dies verändert die Perspektive des feedbackgesteuerten Lernens von der Belohnungs-Optimierung hin zur bedingten Generierung und bietet eine ausdrucksstärkere Methode, damit LLMs direkt aus sprachlichen Rückmeldungen lernen können. Unser Code ist unter https://github.com/sail-sg/feedback-conditional-policy verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

Abstract

KI mit KI entwickeln

Hyper Newsletters