FinQA : un jeu de données pour le raisonnement numérique sur des données financières

Le volume considérable des états financiers rend difficile pour les êtres humains d’accéder à et d’analyser les données financières d’une entreprise. De même, le raisonnement numérique robuste fait face à des défis spécifiques dans ce domaine. Dans ce travail, nous nous concentrons sur la réponse à des questions approfondies sur les données financières, dans le but d’automatiser l’analyse d’un grand corpus de documents financiers. Contrairement aux tâches existantes dans des domaines généraux, le domaine financier implique un raisonnement numérique complexe ainsi qu’une compréhension de représentations hétérogènes. Pour favoriser les progrès analytiques, nous proposons un nouveau jeu de données à grande échelle, FinQA, comprenant des paires question-réponse issues de rapports financiers rédigés par des experts financiers. Nous annotons également les programmes de raisonnement optimaux afin de garantir une pleine explicabilité. Nous introduisons par ailleurs des modèles de base et menons des expériences approfondies sur notre jeu de données. Les résultats montrent que les modèles pré-entraînés largement utilisés, bien qu’importants, se révèlent très inférieurs aux experts humains en matière d’acquisition de connaissances financières et de raisonnement numérique multi-étapes complexes basé sur ces connaissances. Notre jeu de données — la première de son genre — devrait donc permettre des recherches significatives et nouvelles au sein de la communauté scientifique sur des domaines d’application complexes. Le jeu de données et le code sont disponibles publiquement à l’adresse suivante : \url{https://github.com/czyssrs/FinQA}.