Command Palette
Search for a command to run...
Vorteile und Fallen der Verstärkungslernens für die Planung von Sprachmodellen: Eine theoretische Perspektive
Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

Abstract
Rezenten Methoden des Verstärkenden Lernens (Reinforcement Learning, RL) haben die Planungsfähigkeiten großer Sprachmodelle (Large Language Models, LLMs) erheblich verbessert, doch die theoretische Grundlage für ihre Wirksamkeit bleibt weiterhin unklar. In dieser Arbeit untersuchen wir die Vor- und Nachteile von RL anhand einer handhabbaren, graphbasierten Abstraktion, wobei wir uns auf Policy-Gradient-(PG)- und Q-Lernverfahren konzentrieren. Unsere theoretischen Analysen zeigen, dass eine überwachte Feinabstimmung (Supervised Fine-Tuning, SFT) möglicherweise spurious Lösungen aufgrund von Ko-Occurrenz-Muster einführt, während RL die korrekte Planung vor allem durch Exploration erreicht – was die entscheidende Rolle der Exploration für eine bessere Generalisierung unterstreicht. Gleichzeitig zeigen wir jedoch, dass PG unter einem Phänomen der Diversitätskollaps leidet, bei dem die Vielfalt der Ausgaben während des Trainings abnimmt und auch nach Erreichen einer perfekten Genauigkeit bestehen bleibt. Im Gegensatz dazu bietet Q-Lernen zwei wesentliche Vorteile: die Möglichkeit des off-policy Lernens und die Erhaltung von Diversität im Konvergenzpunkt. Wir demonstrieren zudem, dass eine sorgfältige Belohnungsdesignierung notwendig ist, um Belohnungshacking im Q-Lernen zu verhindern. Schließlich bestätigen wir anhand der praktischen Anwendung unseres Rahmens auf die realweltbezogene Planungsaufgabe Blocksworld, dass diese Verhaltensmuster tatsächlich in der Praxis auftreten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.