HyperAIHyperAI
منذ 2 أشهر

TabFact: مجموعة بيانات كبيرة لتحقق من الحقائق المستندة إلى الجداول

Wenhu Chen; Hongmin Wang; Jianshu Chen; Yunkai Zhang; Hong Wang; Shiyang Li; Xiyou Zhou; William Yang Wang
TabFact: مجموعة بيانات كبيرة لتحقق من الحقائق المستندة إلى الجداول
الملخص

يُعدُّ مشكلة التحقق من صحة فرضية نصية بناءً على الأدلة المقدمة، والمعروفة أيضًا بالتحقق من الحقائق، جزءًا مهمًا في دراسة فهم اللغة الطبيعية وتمثيل المعنى. ومع ذلك، فإن الدراسات الحالية تقتصر بشكل رئيسي على التعامل مع الأدلة غير المنظمة (مثل الجمل والوثائق بلغة طبيعية، الأخبار، إلخ)، بينما يظل التحقق تحت الأدلة المنظمة، مثل الجداول والرسوم البيانية والقواعد البيانات، قليل الاستكشاف. تهدف هذه الورقة البحثية بشكل خاص إلى دراسة التحقق من الحقائق عند تقديم البيانات شبه المنظمة كأدلة. لهذا الغرض، نقوم ببناء مجموعة بيانات كبيرة تسمى TabFact تتضمن 16000 جدول من ويكيبيديا كأدلة لـ 118000 بيان بلغة طبيعية تم تصنيفها بواسطة البشر، والتي يتم تصنيفها إما بأنها مستنتجة (ENTAILED) أو مفندة (REFUTED). تعتبر TabFact تحديًا لأنها تتطلب كلًا من الاستدلال اللغوي الناعم والاستدلال الرمزي القاسي. لمعالجة هذه تحديات الاستدلال، نصمم نموذجين مختلفين: Table-BERT وخوارزمية البرنامج الكامن (LPA). يستخدم Table-BERT أحدث نموذج لغوي مُسبق التدريب لتحويل الجداول والمclarations إلى متجهات مستمرة للتحقق منها. تقوم LPA بتحليل البيانات إلى برامج وتنفيذها ضد الجداول للحصول على القيمة الثنائية المرتجعة للتحقق. حقق كلا الطريقتين دقة متشابهة ولكن لا يزال أداؤهما بعيدًا عن الأداء البشري. كما نقوم بإجراء تحليل شامل لإظهار الفرص المستقبلية الهائلة. يتم توفير بيانات ومصدر البرمجيات لهذه المجموعة البيانات في \url{https://github.com/wenhuchen/Table-Fact-Checking}.

TabFact: مجموعة بيانات كبيرة لتحقق من الحقائق المستندة إلى الجداول | أحدث الأوراق البحثية | HyperAI