HyperAIHyperAI

Command Palette

Search for a command to run...

Raten – Nachdenken – Antworten

Date

vor 2 Monaten

Organization

vivo (Vivo Mobile Communications Co., Ltd.)

Paper URL

2509.12108

Guess–Think–Answer (GTA) wurde im September 2025 vom Algorithmenteam des vivo AI Lab vorgeschlagen, und die entsprechenden Forschungsergebnisse wurden in der Arbeit „GTA: Überwachtes, geführtes Reinforcement Learning für die Textklassifizierung mit großen Sprachmodellen".

Das GTA-Framework funktioniert, indem das Modell zunächst eine initiale Schätzung generiert (optimiert durch Cross-Entropy-Loss). Anschließend wird diese Schätzung reflektiert, um die endgültige Antwort zu generieren. Gleichzeitig werden die Belohnungen des Reinforcement Learning (RL) genutzt, um die endgültige Ausgabe und das Format der gesamten GTA-Struktur zu formen. Dieses Framework ermöglicht es dem Modell, durch RL spontan effektive Inferenzmuster zu erlernen. Dadurch entfällt die Notwendigkeit der manuellen Annotation der Inferenzkette, und die Effizienz des überwachten Feinabstimmens (SFT) wird mit den erweiterten Möglichkeiten von RL in einem einheitlichen Trainingsparadigma kombiniert.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Raten – Nachdenken – Antworten | Wiki | HyperAI