HyperAI

Résumé

Les modèles de récompense par processus (Process Reward Models, PRMs) sont récemment apparus comme un cadre puissant pour améliorer les capacités de raisonnement des grands modèles de raisonnement (Large Reasoning Models, LRMs), notamment dans le contexte du scaling au moment de l’inférence (test-time scaling, TTS). Toutefois, leur potentiel en tant qu’outils de supervision des LRMs dans les domaines du raisonnement sur tableaux reste largement sous-exploité. À travers des analyses empiriques détaillées, nous identifions que les PRMs existants, bien qu’élargis à la supervision des étapes de raisonnement textuelles, peinent face à des opérations spécifiques aux tableaux telles que la récupération de sous-tableaux ou l’interaction avec les schémas, ce qui engendre des goulets d’étranglement critiques sur les performances. Pour pallier cette limitation, nous proposons TaTToo, un nouveau cadre de PRM fondé sur les tableaux, qui (i) reasonne explicitement sur les étapes de raisonnement tabulaires et (ii) intègre une vérification basée sur des outils afin de fournir une supervision par récompense précise. Plus précisément, nous concevons d’abord une chaîne de curations de données évolutives qui construit plus de 60 000 annotations de qualité élevée au niveau des étapes en combinant des justifications de vérification de tableaux avec des exécutions basées sur des outils. À partir des données collectées, nous entraînons TaTToo selon un paradigme en deux étapes : une fine-tuning supervisée en phase de démarrage froid pour capturer les schémas de raisonnement liés à l’utilisation d’outils, suivie d’un apprentissage par renforcement avec une formation de récompense ancrée dans les outils, afin d’aligner notre modèle sur la vérification basée sur les tableaux. Nous présentons une évaluation complète de l’amélioration politique induite par notre nouveau PRM. Sur cinq benchmarks exigeants couvrant le raisonnement numérique, la vérification de faits et l’analyse de données, TaTToo améliore les LRMs politiques en phase d’inférence de 30,9 %, dépasse des baselines PRM performantes comme Qwen-2.5-Math-PRM-72B, tout en utilisant uniquement 8 milliards de paramètres, et démontre une forte généralisation sur diverses stratégies de TTS.

Résumé

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TaTToo : PRM fondé sur un outil pour le raisonnement à temps de test dans le raisonnement tabulaire

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TaTToo : PRM fondé sur un outil pour le raisonnement à temps de test dans le raisonnement tabulaire

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TaTToo : PRM fondé sur un outil pour le raisonnement à temps de test dans le raisonnement tabulaire

Jiaru Zou Soumya Roy Vinay Kumar Verma Ziyi Wang David Wipf Pan Lu Sumit Negi James Zou Jingrui He

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters