HyperAIHyperAI
منذ 11 أيام

TaBERT: التدريب المسبق لفهم متكامل للبيانات النصية والجدولية

Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel
TaBERT: التدريب المسبق لفهم متكامل للبيانات النصية والجدولية
الملخص

شهدت السنوات الأخيرة نموًا ملحوظًا في نماذج النماذج اللغوية المُدرّبة مسبقًا (LMs) لمهام فهم اللغة الطبيعية (NL) القائمة على النص. وتُدرَّب هذه النماذج عادةً على نصوص لغوية حرة الشكل، مما يجعلها قد لا تكون مناسبة للمهام مثل التحليل الدلالي للبيانات الهيكلية، التي تتطلب استدلالًا على كل من الأسئلة النصية الحرة الشكل والبيانات الجدولية الهيكلية (مثل جداول قواعد البيانات). في هذه الورقة، نقدّم TaBERT، وهو نموذج لغوي مُدرّب مسبقًا يتعلم تمثيلات مشتركة للجمل النصية وجدول البيانات (شبه) الهيكلية. تم تدريب TaBERT على كوربُس ضخم يضم 26 مليون جدول وسياقاتها الإنجليزية. وفي التجارب، حققت مُحلِّلات دلالية عصبية تستخدم TaBERT كطبقات تمثيل ميزات نتائج جديدة قياسية على مBenchmark التحليل الدلالي الضعيف التدريب المُعقد WikiTableQuestions، بينما أظهرت أداءً تنافسيًا على مجموعة بيانات text-to-SQL Spider. ستكون إمكانية تنفيذ النموذج متاحة عبر الرابط: http://fburl.com/TaBERT.

TaBERT: التدريب المسبق لفهم متكامل للبيانات النصية والجدولية | أحدث الأوراق البحثية | HyperAI