HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Verständniswerkzeug-integriertes Schließen

Heng Lin Zhongwen Xu

Verständniswerkzeug-integriertes Schließen

Abstract

Wir untersuchen, warum Tool-Integrated Reasoning (TIR) große Sprachmodelle (LLMs) leistungsfähiger macht. Obwohl LLMs, die mit Werkzeugen wie Python-Code-Interpretierern integriert sind, großes Potenzial zeigen, fehlte bisher eine begründete Theorie, die erklärt, warum dieses Paradigma wirksam ist. In dieser Arbeit präsentieren wir den ersten formalen Beweis dafür, dass TIR die Fähigkeiten eines LLMs grundlegend erweitert. Wir zeigen, dass Werkzeuge eine strenge Erweiterung des empirischen und praktikablen Supports des Modells ermöglichen und somit die Leistungsgrenze reiner Textmodelle durchbrechen, indem sie Problemlösestrategien freisetzen, die sonst unmöglich oder unpraktisch aufwendig wären. Um das Modellverhalten zu steuern, ohne die Trainingsstabilität und Leistung zu beeinträchtigen, führen wir außerdem Advantage Shaping Policy Optimization (ASPO) ein – einen neuartigen Algorithmus, der direkt die Vorteilsfunktion modifiziert, um das Politikverhalten zu lenken. Wir führen umfassende Experimente an anspruchsvollen mathematischen Benchmarks durch, wobei wir einen Python-Interpreter als externes Werkzeug nutzen. Unsere Ergebnisse zeigen, dass das TIR-Modell den rein textbasierten Gegenpart hinsichtlich der Pass@k-Metrik entscheidend übertrifft. Entscheidend ist, dass dieser Vorteil nicht auf rechenintensive Aufgaben beschränkt ist, sondern auch auf Probleme mit erheblichem abstraktem Einsichtsbedarf übertragen wird. Zudem identifizieren wir emergente kognitive Muster, die verdeutlichen, wie Modelle lernen, mit Werkzeugen zu denken. Schließlich berichten wir über verbesserte Werkzeugnutzungsverhalten, insbesondere frühe Code-Aufrufe und deutlich interaktiveren Dialogverlauf mit ASPO. Insgesamt liefert unsere Arbeit die erste begründete Erklärung für den Erfolg von TIR und verlagert den Fokus von der bloßen Tatsache, dass Werkzeuge funktionieren, hin zu der Frage, warum und wie sie eine leistungsfähigere Schlussfolgerung ermöglichen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verständniswerkzeug-integriertes Schließen | Forschungsarbeiten | HyperAI