HyperAI

Zusammenfassung

Wir untersuchen, warum Tool-Integrated Reasoning (TIR) große Sprachmodelle (LLMs) leistungsfähiger macht. Obwohl LLMs, die mit Werkzeugen wie Python-Code-Interpretierern integriert sind, großes Potenzial zeigen, fehlte bisher eine begründete Theorie, die erklärt, warum dieses Paradigma wirksam ist. In dieser Arbeit präsentieren wir den ersten formalen Beweis dafür, dass TIR die Fähigkeiten eines LLMs grundlegend erweitert. Wir zeigen, dass Werkzeuge eine strenge Erweiterung des empirischen und praktikablen Supports des Modells ermöglichen und somit die Leistungsgrenze reiner Textmodelle durchbrechen, indem sie Problemlösestrategien freisetzen, die sonst unmöglich oder unpraktisch aufwendig wären. Um das Modellverhalten zu steuern, ohne die Trainingsstabilität und Leistung zu beeinträchtigen, führen wir außerdem Advantage Shaping Policy Optimization (ASPO) ein – einen neuartigen Algorithmus, der direkt die Vorteilsfunktion modifiziert, um das Politikverhalten zu lenken. Wir führen umfassende Experimente an anspruchsvollen mathematischen Benchmarks durch, wobei wir einen Python-Interpreter als externes Werkzeug nutzen. Unsere Ergebnisse zeigen, dass das TIR-Modell den rein textbasierten Gegenpart hinsichtlich der Pass@k-Metrik entscheidend übertrifft. Entscheidend ist, dass dieser Vorteil nicht auf rechenintensive Aufgaben beschränkt ist, sondern auch auf Probleme mit erheblichem abstraktem Einsichtsbedarf übertragen wird. Zudem identifizieren wir emergente kognitive Muster, die verdeutlichen, wie Modelle lernen, mit Werkzeugen zu denken. Schließlich berichten wir über verbesserte Werkzeugnutzungsverhalten, insbesondere frühe Code-Aufrufe und deutlich interaktiveren Dialogverlauf mit ASPO. Insgesamt liefert unsere Arbeit die erste begründete Erklärung für den Erfolg von TIR und verlagert den Fokus von der bloßen Tatsache, dass Werkzeuge funktionieren, hin zu der Frage, warum und wie sie eine leistungsfähigere Schlussfolgerung ermöglichen.

Zusammenfassung

Heng Lin Zhongwen Xu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Heng Lin Zhongwen Xu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Heng Lin Zhongwen Xu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verständniswerkzeug-integriertes Schließen

Heng Lin Zhongwen Xu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verständniswerkzeug-integriertes Schließen

Heng Lin Zhongwen Xu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Verständniswerkzeug-integriertes Schließen

Heng Lin Zhongwen Xu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters