Raten – Nachdenken – Antworten
Guess–Think–Answer (GTA) wurde im September 2025 vom Algorithmenteam des vivo AI Lab vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „GTA: Überwachtes, geführtes Reinforcement Learning für die Textklassifizierung mit großen Sprachmodellen".
Das GTA-Framework funktioniert, indem das Modell zunächst eine initiale Schätzung generiert (optimiert durch Cross-Entropy-Loss). Anschließend wird diese Schätzung reflektiert, um die endgültige Antwort zu generieren. Gleichzeitig werden die Belohnungen des Reinforcement Learning (RL) genutzt, um die endgültige Ausgabe und das Format der gesamten GTA-Struktur zu formen. Dieses Framework ermöglicht es dem Modell, durch RL spontan effektive Inferenzmuster zu erlernen. Dadurch entfällt die Notwendigkeit der manuellen Annotation der Inferenzkette, und die Effizienz des überwachten Feinabstimmens (SFT) wird mit den erweiterten Möglichkeiten von RL in einem einheitlichen Trainingsparadigma kombiniert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.