Command Palette
Search for a command to run...
TaTToo: Werkzeugbasiertes Denken PRM für die Testzeit-Skalierung bei tabellarischen Reasoning
Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

Abstract
Process Reward Models (PRMs) sind kürzlich als ein leistungsfähiges Framework zur Verbesserung der Schlussfolgerungsfähigkeiten großer Schlussfolgerungsmodelle (LRMs) hervorgetreten, insbesondere im Kontext der Testzeit-Skalierung (TTS). Ihre Potenziale bei der Überwachung von LRMs im Bereich tabellarischer Schlussfolgerungen sind jedoch bisher kaum erforscht. Durch detaillierte empirische Analysen zeigen wir, dass bestehende PRMs, obwohl sie weit verbreitet zur Überwachung von rein textbasierten Schlussfolgerungsschritten eingesetzt werden, Schwierigkeiten mit tabellenspezifischen Operationen wie der Abfrage von Teiltabellen oder der Interaktion mit Tabellenschemata haben, was zu kritischen Leistungsengpässen führt. Um diese Limitation zu überwinden, schlagen wir TaTToo vor – ein neuartiges, tabellenbasiertes PRM-Framework, das (i) explizit über tabellenbasierte Schlussfolgerungsschritte reasoning und (ii) Werkzeug-basierte Überprüfung integriert, um präzise Belohnungsüberwachung zu ermöglichen. Konkret entwerfen wir zunächst eine skalierbare Datenkurationsschleife, die über 60.000 hochwertige Annotations auf Schritt-Ebene erstellt, indem tabellenbasierte Überprüfungsrationale mit werkzeugbasierten Ausführungen kombiniert werden. Aufbauend auf den gesammelten Daten trainieren wir TaTToo mit einem zweistufigen Paradigma: zunächst eine kaltgestartete überwachte Feinabstimmung zur Erfassung von Werkzeugnutzungs-Schlussfolgerungsmustern, gefolgt von Verstärkendem Lernen mit werkzeugbasiertem Belohnungs-Shaping, um unser Modell an tabellenbasierte Überprüfungen anzupassen. Wir präsentieren eine umfassende Bewertung der durch unser neu gestaltetes PRM induzierten Verbesserung der Policy. In fünf anspruchsvollen Benchmarks für tabellarische Schlussfolgerung – abgedeckt sind numerische Schlussfolgerung, Faktenüberprüfung und Datenanalyse – verbessert TaTToo die Leistung der nachgeschalteten Policy-LRMs im Inference-Modus um 30,9 %, übertrifft starke PRM-Baselines wie Qwen-2.5-Math-PRM-72B, obwohl es nur über 8 Milliarden Parameter verfügt, und zeigt eine starke Generalisierbarkeit über verschiedene TTS-Strategien hinweg.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.