تعلم تمثيلات مستقلة عن البيانات الوصفية لاختيار السياق من النص إلى الاستعلامات SQL

التعلم السياقي (ICL) هو نموذج قوي حيث تستفيد النماذج اللغوية الكبيرة (LLMs) من عروض المهام المضافة إلى الدعوة. ومع ذلك، فإن اختيار العروض المثلى ليس بالأمر البسيط، خاصةً بالنسبة للمهام المعقدة أو متعددة الأوضاع حيث تختلف توزيعات المدخلات والمخرجات. نفترض أن تكوين تمثيلات محددة للمهمة للمدخلات هو أمر حاسم. في هذا البحث، نقترح طريقة لتوحيد تمثيلات الأسئلة اللغوية الطبيعية وتلك الخاصة بالاستعلامات SQL في فضاء مضمن مشترك. تقنيتنا، التي أطلقنا عليها اسم MARLO - التعلم التمثيلي للنصوص إلى SQL دون الحاجة لمعلومات الوصف الفنية (Metadata-Agnostic Representation Learning for Text-to-SQL) - تستعمل بنية الاستعلام لتمثيل نوايا الاستعلام دون الإفراط في التركيز على البيانات الوصفية الأساسية للقاعدة بيانات (أي الجداول، الأعمدة، أو الكيانات المرتبطة بمجال معين المشار إليها في السؤال أو الاستعلام). هذا يسمح لـ MARLO باختيار أمثلة ذات صلة هيكلية ودلالية بالمهمة بدلاً من أمثلة ذات علاقة زائفة مع مجال معين أو صياغة سؤال معينة. عند استخدامها لاسترجاع الأمثلة استنادًا إلى تشابه السؤال، تظهر MARLO أداءً أفضل مقارنة بالأنماط المضمنة العامة (بمتوسط +2.9 نقطة مئوية في دقة التنفيذ) على مقاييس Spider. كما أنها تتفوق على الطريقة الأفضل التالية التي تخفي المعلومات الوصفية بمتوسط +0.8 نقطة مئوية في دقة التنفيذ، بينما تفرض زمن استدلال أقل بكثير بشكل كبير.