NormTab: تحسين الاستدلال الرمزي في نماذج LLM من خلال تطبيع البيانات الجدولية

في السنوات الأخيرة، أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات مميزة في تحليل البيانات النصية وإنشاء التعليمات البرمجية. ومع ذلك، تواجه أداؤها في المهام المتعلقة بالبيانات الجدولية، وخاصة تلك التي تتطلب استنتاجًا رمزيًا، صعوبات ناتجة عن التباين الهيكلي وعدم الاتساق في قيم خلايا الجداول التي تُعثر عليها غالبًا في الجداول على الويب. في هذا البحث، نقدّم NormTab، إطارًا جديدًا مصممًا لتعزيز أداء النماذج اللغوية الكبيرة في الاستدلال الرمزي من خلال توحيد الجداول على الويب. ونُجري دراسة للتوحيد الجدولي كخطوة معالجة مسبقة منفصلة ومرة واحدة باستخدام النماذج اللغوية الكبيرة لدعم الاستدلال الرمزي على البيانات الجدولية. تُظهر تقييماتنا التجريبية، التي أُجريت على مجموعات بيانات جداول ويب صعبة مثل WikiTableQuestion وTabFact، أن الاستفادة من NormTab تُحسّن بشكل ملحوظ من أداء الاستدلال الرمزي، مما يُبرز الأهمية والفعالية لتوحيد الجداول على الويب في تعزيز مهام الاستدلال الرمزي القائمة على النماذج اللغوية الكبيرة.