إعادة التفكير في فهم البيانات الجدولية باستخدام نماذج اللغة الكبيرة

أظهرت نماذج اللغة الكبيرة (LLMs) قدرتها على تنفيذ مهام متنوعة، إلا أن قدرتها على تفسير واستنتاج البيانات الجدولية ما زالت مجالًا غير مُستكشَف بالكامل. وفي هذا السياق، تُجري هذه الدراسة تحليلًا من ثلاث زوايا رئيسية: موثوقية نماذج اللغة الكبيرة أمام الاضطرابات الهيكلية في الجداول، والتحليل المقارن بين التفكير النصي والتفكير الرمزي عند التعامل مع الجداول، وإمكانية تحسين أداء النموذج من خلال دمج مسارات التفكير المتعددة. وتوصلت الدراسة إلى أن التباين الهيكلي في الجداول التي تعرض نفس المحتوى يؤدي إلى انخفاض ملحوظ في الأداء، خاصة في المهام المتعلقة بالتفكير الرمزي. وهذا يدفع إلى اقتراح طريقة لتوحيد هيكل الجداول. علاوةً على ذلك، يتفوق التفكير النصي قليلاً على التفكير الرمزي، وتبين تحليل الأخطاء التفصيلي أن كل نوع من أنواع التفكير يمتلك مزايا مختلفة حسب طبيعة المهمة المحددة. وبشكل لافت، أدى دمج مسارات التفكير النصي والرمزي، بدعم من آلية مختلطة للاتساق الذاتي، إلى تحقيق أداءً يُعد الأفضل في مجاله (SOTA)، بدرجة دقة بلغت 73.6٪ على مجموعة بيانات WIKITABLEQUESTIONS، مما يمثل تقدمًا كبيرًا مقارنة بالمناهج السابقة المعتمدة في معالجة الجداول بواسطة نماذج اللغة الكبيرة.