2달 전
문장: 표에서 ESG KPI를 위한 대형 언어 모델을 사용한 유니버설 정보 추출
Lokesh Mishra; Sohayl Dhibi; Yusik Kim; Cesar Berrospi Ramis; Shubham Gupta; Michele Dolfi; Peter Staar

초록
환경, 사회, 그리고 지배구조(ESG) KPIs는 기후 변화, 온실가스 배출, 수자원 사용, 폐기물 관리, 인권, 다양성 및 정책 등의 이슈에 대한 조직의 성과를 평가합니다. ESG 보고서는 이러한 귀중한 양적 정보를 표를 통해 전달합니다. 그러나 표의 구조와 내용이 매우 다양하기 때문에 이 정보를 추출하는 것이 어렵습니다. 우리는 양적 사실과 관련 정보를 추출하기 위한 새로운 영역 독립적인 데이터 구조인 Statements를 제안합니다. 또한 표를 문장으로 변환하는 작업을 새로운 감독된 딥러닝 유니버설 정보 추출 과제로 제안합니다. 우리는 10만 개 이상의 주석이 달린 표로 구성된 SemTabNet 데이터셋을 소개합니다. T5 기반 Statement 추출 모델들의 가족을 조사한 결과, 우리의 최고 모델은 기준선(21%)보다 훨씬 높은 82%의 유사성을 가진 문장을 생성하였습니다. 우리는 2700개 이상의 ESG 보고서에서 추출한 표에 우리의 모델을 적용하여 문장의 장점을 입증하였습니다. 문장의 동질성은 대규모 ESG 보고서 집합에서 발견되는 방대한 정보에 대한 탐색적 데이터 분석을 가능하게 합니다.