HyperAIHyperAI
منذ 2 أشهر

PASTA: التحقق من الحقائق مع الوعي بعمليات الجداول من خلال التدريب المسبق على جملة-جدول مكملة

Zihui Gu; Ju Fan; Nan Tang; Preslav Nakov; Xiaoman Zhao; Xiaoyong Du
PASTA: التحقق من الحقائق مع الوعي بعمليات الجداول من خلال التدريب المسبق على جملة-جدول مكملة
الملخص

التحقق من الحقائق قد جذب الكثير من الاهتمام البحثي مؤخرًا، على سبيل المثال في مجال الصحافة والتسويق وصنع السياسات، حيث يمكن أن تؤثر المعلومات الخاطئة والمضللة عبر الإنترنت على آراء الأشخاص وأفعالهم. رغم أن التحقق من الحقائق يعتبر مهمة صعبة بشكل عام، إلا أنه في العديد من الحالات يمكن كشف الزيف بسهولة بناءً على تحليل الجداول التي تحتوي على معلومات موثوقة. لذلك، ظهر التحقق من الحقائق القائم على الجداول مؤخرًا كمجال بحثي مهم ومتنامي. ومع ذلك، كان التقدم محدودًا بسبب نقص قواعد البيانات التي يمكن استخدامها لتدريب النماذج اللغوية (LMs) مسبقًا لتكون على دراية بالعمليات الجدولية الشائعة مثل تجميع العمود أو مقارنة الأزواج. لسد هذه الفجوة، نقدم في هذا البحث إطار عمل جديد يُسمى PASTA، وهو إطار رائد للتحقق من الحقائق القائم على الجداول من خلال التدريب المسبق باستخدام أسئلة الملء الفارغة المصنعة بين الجمل والجداول. وبشكل خاص، صممنا ستة أنواع شائعة من مهام الملء الفارغة بين الجمل والجداول، وهي: التصفية (Filter)، والتجميع (Aggregation)، والأعلى قيمة (Superlative)، والمقارنة (Comparative)، والترتيب (Ordinal)، والفردي (Unique). استنادًا إلى هذه المهام، أنتجنا مجموعة كبيرة تتكون من 1.2 مليون زوج جملة-جدول مستخلصة من WikiTables. يستخدم PASTA نموذج لغوي تم تدريبه مسبقًا حديثًا وهو DeBERTaV3 ويقوم بتدريبه أكثر على قاعدة بياناتنا. تظهر نتائج التجارب الخاصة بنا أن PASTA حقق أداءً رائدًا جديدًا في معياري التحقق من الحقائق القائمين على الجداول: TabFact و SEM-TAB-FACTS. وبشكل خاص، في مجموعة TabFact المعقدة التي تحتوي على عمليات متعددة، يتفوق PASTA بشكل كبير على الحالة الرائدة السابقة بمقدار 4.7 نقطة (85.6٪ مقابل 80.9٪)، وتضيق الفجوة بين أداء PASTA والأداء البشري في مجموعة الاختبار الصغيرة لـ TabFact إلى مجرد 1.5 نقطة (90.6٪ مقابل 92.1٪).

PASTA: التحقق من الحقائق مع الوعي بعمليات الجداول من خلال التدريب المسبق على جملة-جدول مكملة | أحدث الأوراق البحثية | HyperAI