Command Palette
Search for a command to run...
البيانات: استخراج المعلومات الشامل من الجداول باستخدام نماذج اللغات الكبيرة لمؤشرات الأداء الرئيسية للبيئة والمسؤولية الاجتماعية والحوكمة (ESG)
البيانات: استخراج المعلومات الشامل من الجداول باستخدام نماذج اللغات الكبيرة لمؤشرات الأداء الرئيسية للبيئة والمسؤولية الاجتماعية والحوكمة (ESG)
Lokesh Mishra¹ Sohayl Dhibi¹ Yusik Kim² Cesar Berrospi Ramis¹ Shubham Gupta² Michele Dolfi¹ Peter Staar¹
الملخص
تقييم مؤشرات الأداء البيئي والاجتماعي والحوكمة (ESG) يقيس أداء المنظمة في قضايا مثل تغير المناخ، انبعاثات غازات الدفيئة، استهلاك المياه، إدارة النفايات، حقوق الإنسان، التنوع، والسياسات. تنقل تقارير ESG هذه المعلومات الكمية القيمة من خلال الجداول. ومع ذلك، فإن استخراج هذه المعلومات يعد صعبًا بسبب التباين الكبير في بنية الجدول ومحتواه. نقترح استخدام "البيانات" (Statements)، وهي بنية بيانات جديدة غير مرتبطة بمجال معين لاستخراج الحقائق الكمية والمعلومات ذات الصلة. نقترح تحويل الجداول إلى بيانات كمهمة جديدة لاستخراج المعلومات الشاملة باستخدام التعلم العميق الإشرافي. نقدم مجموعة بيانات SemTabNet التي تحتوي على أكثر من 100 ألف جدول مُشَرَّح. من خلال دراسة سلسلة من نماذج استخراج البيانات المستندة إلى T5، وصل أفضل نموذج لدينا إلى إنتاج بيانات تتشابه بنسبة 82٪ مع البيانات المرجعية (مقارنةً بـ 21٪ للنموذج الأساسي). نوضح مزايا البيانات من خلال تطبيق نموذجنا على أكثر من 2700 جدول من تقارير ESG. الطبيعة المتجانسة للبيانات تسمح بإجراء تحليل استكشافي للبيانات على المعلومات الواسعة الموجودة في مجموعات كبيرة من تقارير ESG.