تاباس: معالجة الجداول الضعيفة التدريب عبر التدريب المسبق

إجابة الأسئلة باللغة الطبيعية على الجداول تُعتبر عادةً مهمة تحليل دلالي. وللتقليل من تكلفة جمع الصيغ المنطقية الكاملة، اعتمد نهج شائع على الإشراف الضعيف المتمثل في التوصيفات (denotations) بدلًا من الصيغ المنطقية. ومع ذلك، فإن تدريب مُحلّلات الدلالة من خلال الإشراف الضعيف يُواجه صعوبات، وبالإضافة إلى ذلك، تُستخدم الصيغ المنطقية فقط كخطوة وسيطة قبل استرجاع التوصيف. في هذه الورقة، نقدّم TAPAS، منهجية لحل الأسئلة على الجداول دون الحاجة إلى إنتاج صيغ منطقية. يُدرّب TAPAS باستخدام الإشراف الضعيف، ويُقدّر التوصيف من خلال اختيار خلايا الجدول، وتطبيق مشغل تجميع مناسب اختياريًا على هذا الاختيار. يطوّر TAPAS بنية BERT لتمثيل الجداول كمدخلات، ويُبدأ تدريبه من خلال تدريب مسبق مشترك فعّال على مقاطع نصية وجداول تم جمعها من ويكيبيديا، ويُدرّب بطريقة نهائية (end-to-end). قمنا بتجريب TAPAS على ثلاث مجموعات بيانات مختلفة لتحليل الدلالة، ووجدنا أن TAPAS يتفوّق على أو يُوازي نماذج تحليل الدلالة، حيث ساهم في تحسين دقة الحالة الراهنة على SQA من 55.1 إلى 67.2، وحقق أداءً مُوازيًا للحالة الراهنة على WIKISQL وWIKITQ، ولكن ببنية نموذج أبسط. بالإضافة إلى ذلك، لاحظنا أن التعلم الناقل، الذي يكون بسيطًا في بيئة عملنا، من WIKISQL إلى WIKITQ، يُحقّق دقة قدرها 48.7، أي بزيادة 4.2 نقطة عن الحالة الراهنة.