OmniTab: التدريب المسبق باستخدام البيانات الطبيعية والاصطناعية للإجابة على الأسئلة القائمة على الجداول في حالات القليل من الأمثلة

يمكن أن تكون المعلومات الموجودة في الجداول مكملًا مهمًا للنصوص، مما يجعل أنظمة الإجابة على الأسئلة القائمة على الجداول ذات قيمة كبيرة. غالبًا ما تضيف التعقيدات الداخلية لمعالجة الجداول عبءً إضافيًا على تصميم النماذج وتدوين البيانات. في هذا البحث، نهدف إلى تطوير نموذج بسيط للإجابة على الأسئلة القائمة على الجداول مع جهد تدوين بيانات أقل قدر الإمكان. مستوحى من حقيقة أن الإجابة على الأسئلة القائمة على الجداول تتطلب التوافق بين الأسئلة والجداول وقدرة أداء الاستدلال المعقد عبر عناصر متعددة من الجدول، نقترح نهج تدريب شامل يستهلك كلًا من البيانات الطبيعية والاصطناعية لإكساب النماذج هذه القدرات المتنوعة. بشكل خاص، بالاستفادة من البيانات المتاحة بحرية في الجداول، نستخدم استرجاعًا لربطها بجمل طبيعية ذات صلة للتدريب القائم على التعتيم (mask-based pretraining)، ونقوم بتكوين أسئلة لغوية طبيعية (NL questions) عن طريق تحويل SQL المستخرجة من الجداول للتدريب باستخدام خسارة الإجابة على الأسئلة (QA loss). نجري تجارب واسعة في كلٍ من السياقات ذات الطلقات القليلة والسياقات الكاملة، وتظهر النتائج بوضوح تفوق نموذجنا OmniTab، حيث حققت أفضل طريقة متعددة المهام زيادة مطلقة بنسبة 16.2% و2.7% في السياق ذي 128 طلقة والسياق الكامل على التوالي، كما أنشأت حالة جديدة رائدة في WikiTableQuestions. كشفت التحليلات والتقييمات التفصيلية الخصائص المختلفة للبيانات الطبيعية والاصطناعية، مما يلقي الضوء على اتجاهات مستقبلية في التدريب الشامل. يمكن الحصول على الكود وبيانات التدريب الأولي والنماذج المدربة مسبقًا من https://github.com/jzbjyb/OmniTab.