PET-SQL: تحسين مزدوج المرحلة للتحويل النصي-إلى-SQL بتعزيز المقترحات مع اتساق متقاطع

تساهم التطورات الحديثة في تحويل النص إلى SQL (Text2SQL) في تحفيز النماذج اللغوية الكبيرة (LLM) على التعلم السياقي، مما أدى إلى نتائج ملحوظة. ومع ذلك، تواجه هذه النماذج صعوبات عند التعامل مع معلومات قواعد البيانات الواسعة والنيات المستخدمية المعقدة. تقدم هذه الورقة إطارًا ثنائي المرحلة لتعزيز أداء الأنظمة الحالية القائمة على النماذج اللغوية الكبيرة لتحويل اللغة الطبيعية إلى SQL. أولاً، نُقدّم تمثيلًا جديدًا للنُسق يُسمى "التمثيل المعزز بالإشارة"، والذي يشمل معلومات المخطط (Schema) والقيم العشوائية المستخرجة من خلايا الجداول، بهدف توجيه النماذج اللغوية الكبيرة في إنشاء استعلامات SQL. ثم، في المرحلة الأولى، يتم استرجاع أزواج السؤال-استعلام SQL كأمثلة قليلة (few-shot demonstrations)، مما يُحفّز النموذج اللغوي الكبير على إنتاج استعلام SQL أولي (PreSQL). بعد ذلك، يتم تحليل الكيانات المذكورة في PreSQL لإجراء ربط المخطط (Schema Linking)، مما يمكن من تقليل بشكل كبير المعلومات المفيدة. وفي المرحلة الثانية، وباستخدام المخطط المرتبط، نبسّط معلومات المخطط في النُسق، ونوجّه النموذج اللغوي الكبير لإنتاج الاستعلام النهائي SQL. وأخيرًا، كوحدة تحسين لاحقة (post-refinement)، نقترح استخدام التوافق المتقاطع بين نماذج لغوية كبرى مختلفة، بدلاً من التوافق الذاتي داخل نموذج لغوي كبير واحد. تحقق طرقنا نتائج قياسية جديدة (SOTA) على معيار Spider، بدرجة دقة تنفيذية تصل إلى 87.6%.