Les grands modèles de langage sont des décomposeurs polyvalents : décomposer les preuves et les questions pour le raisonnement basé sur des tables

Le raisonnement basé sur les tables a montré des progrès remarquables dans la combinaison de modèles profonds avec le raisonnement discret, nécessitant de traiter à la fois des questions en langage naturel (NL) libre et des données tabulaires structurées. Cependant, les solutions précédentes de raisonnement basé sur les tables souffrent généralement d'une dégradation importante des performances face à de vastes preuves (tables). De plus, la plupart des méthodes existantes peinent à raisonner sur des questions complexes car les informations requises sont dispersées dans différents endroits. Pour atténuer ces défis, nous utilisons des grands modèles linguistiques (LLMs) comme décomposeurs pour un raisonnement basé sur les tables efficace, qui (i) décomposent de vastes preuves (une grande table) en sous-preuves (une petite table) afin de réduire l'interférence des informations inutiles pour le raisonnement tabulaire ; et (ii) décomposent des questions complexes en sous-questions plus simples pour le raisonnement textuel. Plus précisément, nous utilisons d'abord les LLMs pour fractionner les preuves (tables) impliquées dans la question actuelle, en conservant les preuves pertinentes et en excluant le reste des preuves non pertinentes de la grande table. En outre, nous proposons une stratégie « analyse-exécution-remplissage » pour atténuer le dilemme de l'hallucination dans la chaîne de pensée en dissociant la logique et le calcul numérique à chaque étape. Des expériences approfondies montrent que notre méthode peut efficacement exploiter les preuves et les questions décomposées, surpassant ainsi les fortes bases comparatives sur les jeux de données TabFact, WikiTableQuestions et FetaQA. Notamment, notre modèle dépasse pour la première fois la performance humaine sur le jeu de données TabFact.