NormTab : Amélioration du raisonnement symbolique dans les LLM grâce à la normalisation des données tabulaires

Ces dernières années, les grands modèles linguistiques (LLM) ont fait preuve de capacités remarquables dans l’analyse de données textuelles et la génération de code. Toutefois, leur performance sur des tâches impliquant des données tabulaires, en particulier celles nécessitant un raisonnement symbolique, est limitée en raison de la variabilité structurelle et de l’incohérence des valeurs des cellules observées dans les tables issues du web. Dans cet article, nous introduisons NormTab, un cadre novateur visant à améliorer les performances de raisonnement symbolique des LLM grâce à la normalisation des tables web. Nous étudions la normalisation des tables comme une étape préalable indépendante et ponctuelle, réalisée à l’aide de LLM, afin de soutenir le raisonnement symbolique sur des données tabulaires. Notre évaluation expérimentale, menée sur des jeux de données de tables web exigeants tels que WikiTableQuestion et TabFact, démontre que l’utilisation de NormTab améliore significativement les performances de raisonnement symbolique, mettant ainsi en évidence l’importance et l’efficacité de la normalisation des tables web pour renforcer les tâches de raisonnement symbolique basées sur les LLM.