Lila : Un ensemble de tests unifié pour le raisonnement mathématique

Les compétences en raisonnement mathématique sont essentielles aux systèmes intelligents à usage général pour accomplir des tâches allant de l’achat de courses à la modélisation climatique. Dans le but d’évaluer et d’améliorer les systèmes d’intelligence artificielle dans ce domaine, nous proposons LILA, une référence unifiée pour le raisonnement mathématique comprenant 23 tâches diverses réparties selon quatre dimensions : (i) capacités mathématiques, telles que l’arithmétique ou le calcul différentiel et intégral ; (ii) formats linguistiques, par exemple questions-réponses ou exercices à trous ; (iii) diversité linguistique, incluant des énoncés sans langage, en langage simple, ou en langage naturel ; (iv) connaissances externes, telles que le sens commun ou des principes de physique. Nous avons construit cette référence en étendant 20 jeux de données existants, en collectant les instructions des tâches ainsi que leurs solutions sous forme de programmes Python, permettant ainsi d’obtenir non seulement la réponse correcte, mais aussi des solutions explicables. Nous introduisons également deux jeux de données d’évaluation supplémentaires afin de mesurer la performance hors distribution (out-of-distribution) et la robustesse face aux perturbations linguistiques. Enfin, nous présentons BHASKARA, un modèle généraliste de raisonnement mathématique entraîné sur LILA. Notamment, nous constatons que l’apprentissage multi-tâches conduit à des améliorations significatives (amélioration moyenne relative de 21,83 % en score F1 par rapport aux modèles mono-tâche), tout en montrant que le meilleur modèle atteint seulement 60,40 %, ce qui souligne encore le potentiel d’amélioration dans le domaine du raisonnement mathématique général et de sa compréhension.