استنتاج حول السلسلة الهجينة للأسئلة المفتوحة النطاق التي تعتمد على الجداول والنصوص

يتطلب الإجابة على الأسئلة الجداولية والنصية أن تُطبّق الأنظمة استدلالًا على معلومات متنوعة، مع أخذ بنظر الاعتبار هيكل الجدول والروابط بين الجدول والنص. في هذه الورقة، نقترح إطار عمل يُسمى CARP (ChAin-centric Reasoning and Pre-training)، والذي يعتمد على سلسلة مختلطة لتمثيل عملية الاستدلال المتوسطة الصريحة عبر الجداول والنصوص بهدف الإجابة على الأسئلة. كما نقترح طريقة جديدة للتدريب المسبق تتمحور حول السلسلة، لتعزيز النموذج المُدرّب مسبقًا في التعرف على عملية الاستدلال عبر الوسائط المختلفة وتقليل مشكلة ندرة البيانات. تعتمد هذه الطريقة على إنشاء مجموعة بيانات استدلالية كبيرة الحجم من خلال توليد مسارات استدلالية افتراضية متنوعة من ويكيبيديا وإنشاء أسئلة مطابقة لها. قمنا بتقييم نظامنا على مجموعة OTT-QA، وهي مجموعة معيارية كبيرة الحجم للإجابة على الأسئلة في المجال المفتوح التي تعتمد على الجداول والنصوص، وقد حقق النظام أداءً يُعدّ من أفضل الأداء في المجال. كما تُظهر التحليلات الإضافية أن السلسلة المختلطة الصريحة تُسهم في تحسين كبير في الأداء وقابلية تفسير عملية الاستدلال المتوسطة، وأن التدريب المسبق المتمحور حول السلسلة يعزز الأداء في استخراج السلسلة.