HyperAIHyperAI

Command Palette

Search for a command to run...

Raten – Nachdenken – Antworten

Datum

vor 11 Tagen

Organisation

vivo (Vivo Mobile Communications Co., Ltd.)

Paper-URL

2509.12108

Tags

Guess–Think–Answer (GTA) wurde im September 2025 vom Algorithmenteam des vivo AI Lab vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „GTA: Überwachtes, geführtes Reinforcement Learning für die Textklassifizierung mit großen Sprachmodellen".

Das GTA-Framework funktioniert, indem das Modell zunächst eine initiale Schätzung generiert (optimiert durch Cross-Entropy-Loss). Anschließend wird diese Schätzung reflektiert, um die endgültige Antwort zu generieren. Gleichzeitig werden die Belohnungen des Reinforcement Learning (RL) genutzt, um die endgültige Ausgabe und das Format der gesamten GTA-Struktur zu formen. Dieses Framework ermöglicht es dem Modell, durch RL spontan effektive Inferenzmuster zu erlernen. Dadurch entfällt die Notwendigkeit der manuellen Annotation der Inferenzkette, und die Effizienz des überwachten Feinabstimmens (SFT) wird mit den erweiterten Möglichkeiten von RL in einem einheitlichen Trainingsparadigma kombiniert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Raten – Nachdenken – Antworten | Wiki | HyperAI