GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Abstract
Bei Aufgaben im Bereich der natürlichen Sprachverarbeitung leiden reine Verstärkungslernansätze (Reinforcement Learning, RL) bei der Feinabstimmung oft unter ineffizienter Exploration und langsamer Konvergenz; während Supervised Fine-Tuning (SFT) Ansätze zwar effizient im Training sind, im Vergleich zu RL eine geringere Leistungsgrenze aufweisen und über eine weniger solide theoretische Grundlage verfügen. Um das Effizienz-Leistungs-Trade-off zu überwinden, schlagen wir den Guess-Think-Answer (GTA)-Rahmen vor, der die Effizienz von SFT mit den Leistungssteigerungen durch RL in einer einheitlichen Trainingsparadigmen vereint. Der GTA-Ansatz funktioniert dadurch, dass das Modell zunächst eine vorläufige Vermutung erzeugt (mittels Kreuzentropieverlust optimiert), diese anschließend reflektiert und dann die endgültige Antwort generiert, wobei RL-Belohnungen sowohl die finale Ausgabe als auch die Struktur des gesamten GTA-Ablaufs beeinflussen. Dieser hybride Ansatz erreicht sowohl eine schnellere Konvergenz als reines RL als auch eine höhere Leistungsgrenze als reines SFT. Um Gradientenkonflikte zwischen den beiden Trainingssignalen zu minimieren, setzen wir Verlustmaskierung und Gradientenbeschränkungen ein. Experimentelle Ergebnisse auf vier Benchmarks für Textklassifikation zeigen, dass GTA die Konvergenz erheblich beschleunigt und sowohl die reinen SFT- als auch die reinen RL-Baselines übertrifft.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.