SADGA: شبكة تجميع الرسوم البيانية المزدوجة المُدركة للهيكل للتحويل من النص إلى SQL

تمثل مهمة تحويل النص إلى SQL، التي تهدف إلى ترجمة صيغة السؤال باللغة الطبيعية إلى استعلامات SQL، أحد الموضوعات التي لاقت اهتمامًا كبيرًا مؤخرًا. ومن أبرز التحديات في هذه المهمة كيفية تمديد نموذج التدريب ليكون قادرًا على التعامل مع هياكل قواعد بيانات غير مرئية، والمعروفة أيضًا بمهام تحويل النص إلى SQL عبر المجالات (cross-domain Text-to-SQL). وتكمن المفتاح في القدرة على التعميم بالنسبة إلى: (أ) طريقة الترميز المستخدمة لتمثيل السؤال وهياكل قاعدة البيانات، و(ب) طريقة ربط السؤال بهيكل قاعدة البيانات، بهدف تعلم التماثل بين الكلمات في السؤال والجداول/الأعمدة في قاعدة البيانات. بالتركيز على هذين العنصرين الرئيسيين، نقترح شبكة تجميع ثنائية مُراعية للهيكل (SADGA) لمهام تحويل النص إلى SQL عبر المجالات. في SADGA، نستخدم الهيكل الرسومي (Graph) لتوفير نموذج ترميز موحد لكل من السؤال باللغة الطبيعية وهياكل قواعد البيانات. وباستنادًا إلى هذا النموذج الموحّد المُقترح، نطوّر طريقة تجميع مُراعية للهيكل لتعلم التماثل بين الرسم البياني للسؤال والرسم البياني لهيكل قاعدة البيانات. وتتميز هذه الطريقة بوجود ثلاث خصائص رئيسية: الربط بين الرسومات العالمية (Global Graph Linking)، والربط بين الرسومات المحلية (Local Graph Linking)، وآلية التجميع الثنائي للرسومات (Dual-Graph Aggregation Mechanism). ونحن لا نقتصر على دراسة الأداء التجريبي لاقتراحنا، بل نحقق أيضًا المركز الثالث في معيار التحدي الشهير Text-to-SQL، المعروف باسم Spider، في وقت كتابة هذا النص.