Command Palette
Search for a command to run...
Sprachmodelle können aus verbalen Rückmeldungen lernen, ohne skalarwertige Belohnungen zu erhalten
Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

Abstract
LLMs werden oft mit RL aus menschlicher oder künstlicher Intelligenz-Feedback trainiert. Allerdings komprimieren solche Verfahren meist differenzierte Rückmeldungen in skalare Belohnungen, wodurch ein Großteil ihrer Reichtümlichkeit verloren geht und eine Skalenungleichgewicht entsteht. Wir schlagen vor, sprachliche Rückmeldungen als Bedingungssignal zu behandeln. Inspiriert von Sprachprioritäten in der Text-zu-Bild-Generierung, die es ermöglichen, aus unbekannten Eingaben neue Ausgaben zu erzeugen, führen wir die feedbackbedingte Politik (Feedback-Conditional Policy, FCP) ein. FCP lernt direkt aus Antwort-Rückmeldung-Paaren und approximiert die feedbackbedingte Posterior mittels Maximum-Likelihood-Schätzung auf Offline-Daten. Darüber hinaus entwickeln wir eine Online-Bootstrapping-Phase, in der die Politik unter positiven Bedingungen generiert und frische Rückmeldungen erhält, um sich selbst zu verfeinern. Dies verändert die Perspektive des feedbackgesteuerten Lernens von der Belohnungs-Optimierung hin zur bedingten Generierung und bietet eine ausdrucksstärkere Methode, damit LLMs direkt aus sprachlichen Rückmeldungen lernen können. Unser Code ist unter https://github.com/sail-sg/feedback-conditional-policy verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.