HyperAI

Abstract

Bei Aufgaben im Bereich der natürlichen Sprachverarbeitung leiden reine Verstärkungslernansätze (Reinforcement Learning, RL) bei der Feinabstimmung oft unter ineffizienter Exploration und langsamer Konvergenz; während Supervised Fine-Tuning (SFT) Ansätze zwar effizient im Training sind, im Vergleich zu RL eine geringere Leistungsgrenze aufweisen und über eine weniger solide theoretische Grundlage verfügen. Um das Effizienz-Leistungs-Trade-off zu überwinden, schlagen wir den Guess-Think-Answer (GTA)-Rahmen vor, der die Effizienz von SFT mit den Leistungssteigerungen durch RL in einer einheitlichen Trainingsparadigmen vereint. Der GTA-Ansatz funktioniert dadurch, dass das Modell zunächst eine vorläufige Vermutung erzeugt (mittels Kreuzentropieverlust optimiert), diese anschließend reflektiert und dann die endgültige Antwort generiert, wobei RL-Belohnungen sowohl die finale Ausgabe als auch die Struktur des gesamten GTA-Ablaufs beeinflussen. Dieser hybride Ansatz erreicht sowohl eine schnellere Konvergenz als reines RL als auch eine höhere Leistungsgrenze als reines SFT. Um Gradientenkonflikte zwischen den beiden Trainingssignalen zu minimieren, setzen wir Verlustmaskierung und Gradientenbeschränkungen ein. Experimentelle Ergebnisse auf vier Benchmarks für Textklassifikation zeigen, dass GTA die Konvergenz erheblich beschleunigt und sowohl die reinen SFT- als auch die reinen RL-Baselines übertrifft.

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas2 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Ivan Anishchenko Yakov Kipnis Indrek Kalvet Guangfeng Zhou Rohith Krishna Samuel J. Pellock Anna Lauko Gyu Rie Lee Linna An Justas Dauparas