HyperAI

Raten – Nachdenken – Antworten

Datum

vor 11 Tagen

Organisation

Paper-URL

Tags

Guess–Think–Answer (GTA) wurde im September 2025 vom Algorithmenteam des vivo AI Lab vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „GTA: Überwachtes, geführtes Reinforcement Learning für die Textklassifizierung mit großen Sprachmodellen".

Das GTA-Framework funktioniert, indem das Modell zunächst eine initiale Schätzung generiert (optimiert durch Cross-Entropy-Loss). Anschließend wird diese Schätzung reflektiert, um die endgültige Antwort zu generieren. Gleichzeitig werden die Belohnungen des Reinforcement Learning (RL) genutzt, um die endgültige Ausgabe und das Format der gesamten GTA-Struktur zu formen. Dieses Framework ermöglicht es dem Modell, durch RL spontan effektive Inferenzmuster zu erlernen. Dadurch entfällt die Notwendigkeit der manuellen Annotation der Inferenzkette, und die Effizienz des überwachten Feinabstimmens (SFT) wird mit den erweiterten Möglichkeiten von RL in einem einheitlichen Trainingsparadigma kombiniert.

Raten – Nachdenken – Antworten

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Raten – Nachdenken – Antworten

KI mit KI entwickeln

Hyper Newsletters