HyperAIHyperAI

Command Palette

Search for a command to run...

vor 13 Tagen

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen

Abstract

Bei Aufgaben im Bereich der natürlichen Sprachverarbeitung leiden reine Verstärkungslernansätze (Reinforcement Learning, RL) bei der Feinabstimmung oft unter ineffizienter Exploration und langsamer Konvergenz; während Supervised Fine-Tuning (SFT) Ansätze zwar effizient im Training sind, im Vergleich zu RL eine geringere Leistungsgrenze aufweisen und über eine weniger solide theoretische Grundlage verfügen. Um das Effizienz-Leistungs-Trade-off zu überwinden, schlagen wir den Guess-Think-Answer (GTA)-Rahmen vor, der die Effizienz von SFT mit den Leistungssteigerungen durch RL in einer einheitlichen Trainingsparadigmen vereint. Der GTA-Ansatz funktioniert dadurch, dass das Modell zunächst eine vorläufige Vermutung erzeugt (mittels Kreuzentropieverlust optimiert), diese anschließend reflektiert und dann die endgültige Antwort generiert, wobei RL-Belohnungen sowohl die finale Ausgabe als auch die Struktur des gesamten GTA-Ablaufs beeinflussen. Dieser hybride Ansatz erreicht sowohl eine schnellere Konvergenz als reines RL als auch eine höhere Leistungsgrenze als reines SFT. Um Gradientenkonflikte zwischen den beiden Trainingssignalen zu minimieren, setzen wir Verlustmaskierung und Gradientenbeschränkungen ein. Experimentelle Ergebnisse auf vier Benchmarks für Textklassifikation zeigen, dass GTA die Konvergenz erheblich beschleunigt und sowohl die reinen SFT- als auch die reinen RL-Baselines übertrifft.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GTA: Überwachter, geführter Reinforcement-Learning für die Textklassifikation mit großen Sprachmodellen | Forschungsarbeiten | HyperAI