HyperAIHyperAI
منذ 2 أشهر

TAPEX: التدريب المسبق للجداول من خلال تعلم مُنفِّذ SQL العصبي

Qian Liu; Bei Chen; Jiaqi Guo; Morteza Ziyadi; Zeqi Lin; Weizhu Chen; Jian-Guang Lou
TAPEX: التدريب المسبق للجداول من خلال تعلم مُنفِّذ SQL العصبي
الملخص

التطورات الحديثة في تدريب النماذج اللغوية مسبقاً حققت نجاحاً كبيراً من خلال الاستفادة من البيانات النصية غير المنظمة على نطاق واسع. ومع ذلك، لا يزال يشكل تحدياً تطبيق التدريب المسبق على البيانات الجدولية المنظمة بسبب عدم وجود بيانات جدولية عالية الجودة على نطاق واسع. في هذا البحث، نقترح استخدام TAPEX لإظهار أن يمكن تحقيق التدريب المسبق للجدول عن طريق تعلم محرك تنفيذ SQL عصبي على مكتبة بيانات اصطناعية، والتي يتم الحصول عليها عبر تركيب استعلامات SQL قابلة للتنفيذ وأطراف تنفيذها بشكل آلي. يعالج TAPEX تحدي ندرة البيانات من خلال إرشاد النموذج اللغوي إلى تقليد محرك SQL على مكتبة البيانات الاصطناعية ذات الأحجام الكبيرة والجودة العالية والمتنوعة. قمنا بتقييم TAPEX على أربع مجموعات بيانات معيارية. أظهرت نتائج التجارب أن TAPEX يتفوق بشكل كبير على الطرق السابقة لتدريب النماذج الجدولية مسبقاً ويحقق أفضل النتائج المعروفة حتى الآن في جميع هذه المجموعات. وهذا يتضمن تحسين دقة WikiSQL (التي تعتمد على الإشراف الضعيف) إلى 89.5٪ (+2.3٪)، وزيادة دقة WikiTableQuestions إلى 57.5٪ (+4.8٪)، وتحسين دقة SQA إلى 74.5٪ (+3.5٪)، وزيادة دقة TabFact إلى 84.2٪ (+3.2٪). حسب علمنا، هذا هو أول عمل يستغل التدريب المسبق للجدول باستخدام برامج قابلة للتنفيذ اصطناعياً ويحقق أفضل النتائج المعروفة حتى الآن في مجموعة متنوعة من المهام اللاحقة للتدريب. يمكن الوصول إلى كودنا من خلال الرابط: https://github.com/microsoft/Table-Pretraining.

TAPEX: التدريب المسبق للجداول من خلال تعلم مُنفِّذ SQL العصبي | أحدث الأوراق البحثية | HyperAI