ست-رابتور: إجابة الأسئلة حول الجداول شبه المنظمة بدعم من نماذج اللغة الكبيرة

الجداول شبه المنظمة، التي تُستخدم على نطاق واسع في التطبيقات الواقعية (مثل التقارير المالية، السجلات الطبية، أوامر المعاملات)، غالبًا ما تتضمن تخطيطات مرنة ومعقدة (مثل العناوين الهرمية والخلايا المدمجة). تُعتمد هذه الجداول عادةً على المحللين البشريين لفهم تخطيط الجداول والإجابة على الأسئلة الطبيعية المرتبطة بها، وهو ما يُعد مكلفًا وغير فعّال. وللتحفيز على أتمتة هذه العملية، تواجه الطرق الحالية تحديات كبيرة. أولاً، تتطلب الطرق مثل NL2SQL تحويل الجداول شبه المنظمة إلى جداول منظمة، مما يؤدي غالبًا إلى فقدان كبير للمعلومات. ثانيًا، تواجه الطرق مثل NL2Code والأسئلة والإجابات ذات النموذج متعدد الوسائط المبنية على النماذج الكبيرة للغة صعوبة في فهم التخطيطات المعقدة للجداول شبه المنظمة، ولا تستطيع الإجابة بدقة على الأسئلة المقابلة. ولحل هذه المشكلة، نقترح ST-Raptor، وهي إطار عمل مبني على الشجرة للإجابة على الأسئلة المتعلقة بالجداول شبه المنظمة باستخدام النماذج الكبيرة للغة. أولاً، نُقدّم نموذج البنية المسمى "الشجرة المتعامدة الهرمية" (HO-Tree)، الذي يُمكّن من التقاط التخطيطات المعقدة للجداول شبه المنظمة، مع خوارزمية فعّالة لبناء هذه الشجرة. ثانيًا، نُعرّف مجموعة من العمليات الأساسية على الشجرة لتقديم توجيه للنماذج الكبيرة للغة في تنفيذ المهام الشائعة للإجابة على الأسئلة. عند تلقي سؤال من المستخدم، يقوم ST-Raptor بتفكيكه إلى أسئلة فرعية أبسط، وإنشاء سلسلة من العمليات على الشجرة المقابلة، ثم إجراء عملية محاذاة بين العمليات والجدول لضمان تنفيذ الدورة بدقة. ثالثًا، نُدمج آلية تحقق مزدوجة: التحقق الأمامي يتحقق من صحة خطوات التنفيذ، بينما التحقق العكسي يُقيّم موثوقية الإجابة من خلال إعادة بناء الاستعلام من الإجابة المتوقعة. ولقياس الأداء، نُقدّم مجموعة البيانات SSTQA، التي تتضمن 764 سؤالًا موجهة إلى 102 جدولًا شبه منظمًا من العالم الحقيقي. تُظهر النتائج تفوق ST-Raptor على تسعة نماذج مقارنة بنسبة تصل إلى 20٪ في دقة الإجابة. يمكن الوصول إلى الشفرة المصدرية عبر الرابط التالي: https://url.com