Déclarations : Extraction universelle d'informations à partir de tableaux avec des modèles linguistiques de grande taille pour les KPI ESG

Les indicateurs de performance environnementale, sociale et de gouvernance (IPESG ou ESG en anglais) évaluent la performance d'une organisation sur des questions telles que le changement climatique, les émissions de gaz à effet de serre, la consommation d'eau, la gestion des déchets, les droits humains, la diversité et les politiques. Les rapports ESG transmettent ces informations quantitatives précieuses au moyen de tableaux. Malheureusement, l'extraction de ces informations est difficile en raison de la grande variabilité de la structure des tableaux ainsi que de leur contenu. Nous proposons une nouvelle structure de données indépendante du domaine appelée Statements pour extraire des faits quantitatifs et des informations connexes. Nous proposons également la traduction des tableaux en statements comme une nouvelle tâche universelle d'extraction d'informations supervisée par l'apprentissage profond. Nous présentons SemTabNet - un ensemble de données composé de plus de 100 000 tableaux annotés. En étudiant une famille de modèles d'extraction de statements basés sur T5, notre meilleur modèle génère des statements qui sont 82 % similaires aux données réelles (contre 21 % pour la méthode de référence). Nous démontrons les avantages des statements en appliquant notre modèle à plus de 2 700 tableaux issus des rapports ESG. La nature homogène des statements permet une analyse exploratoire des données sur l'information étendue contenue dans les grandes collections de rapports ESG.