2 个月前

陈述:利用大型语言模型从表格中提取ESG关键绩效指标的通用信息

Lokesh Mishra; Sohayl Dhibi; Yusik Kim; Cesar Berrospi Ramis; Shubham Gupta; Michele Dolfi; Peter Staar
陈述:利用大型语言模型从表格中提取ESG关键绩效指标的通用信息
摘要

环境、社会和治理(ESG)关键绩效指标(KPIs)评估组织在气候变化、温室气体排放、水资源消耗、废物管理、人权、多样性及政策等方面的表现。ESG报告通过表格传达这些宝贵的定量信息。然而,由于表格结构和内容的高度变异性,提取这些信息变得十分困难。我们提出了一种新的领域无关的数据结构——陈述(Statements),用于提取定量事实及相关信息。我们将表格转换为陈述视为一项新的监督深度学习通用信息提取任务。我们引入了SemTabNet——一个包含超过10万张注释表格的数据集。通过对一系列基于T5的陈述提取模型进行研究,我们的最佳模型生成的陈述与真实值的相似度达到了82%(相比之下,基线模型仅为21%)。我们通过将该模型应用于超过2700张来自ESG报告的表格,展示了陈述的优势。陈述的同质性使得对大量ESG报告中广泛的信息进行探索性数据分析成为可能。

陈述:利用大型语言模型从表格中提取ESG关键绩效指标的通用信息 | 最新论文 | HyperAI超神经