تحسين التعميم في تحليل المعنى النصي إلى SQL القائم على نماذج اللغة: تقنيتان بسيطتان تعتمدان على الحدود الدلالية

تُشكّل التعميم المكوّني والتعميم النطاقي تحديات كبيرة في تحليل الدلالة، حتى بالنسبة لل parsers الدلاليّة المتطورة التي تعتمد على نماذج لغوية مُدرّبة مسبقًا (LMs). في هذه الدراسة، نُجري تجربةً تحقق من تحسين قدرة نموذج لغوي مُدرّب مسبقًا على التعميم في تحليل الدلالة باستخدام طريقتين بسيطتين: على مستوى الرموز (tokens)، نُقدّم طريقة ما قبل المعالجة للرمز لحفظ الحدود الدلالية للرموز التي تُولّدها أدوات تقسيم الرموز الخاصة بنماذج اللغة؛ وعلى مستوى التسلسل، نقترح استخدام رموز خاصة لتسمية الحدود الخاصة بالمكونات المُحاذاة بين المدخلات والمخرجات. تُظهر النتائج التجريبية على مجموعتي بيانات تحليل الدلالة من النص إلى SQL أن طريقة ما قبل المعالجة للرمز، رغم بساطتها، يمكن أن تُحسّن بشكل ملحوظ أداء نموذج اللغة في كلا النوعين من التعميم، في حين أن طريقة تسمية حدود المكونات تُعدّ مفيدة بشكل خاص في التعميم المكوّني.