مقدمة: معيار مصمم لطلب فهم وتحليل عالمي على سياقات طويلة

نقدّم "PRELUDE"، وهو معيار لتقييم الفهم طويل السياق من خلال مهمة تحديد ما إذا كانت قصة ما قبل القصة (الماضي) لشخصية ما متسقة مع السرد الأصلي المتعارف عليه في الكتاب الأصلي. تفرض هذه المهمة متطلبات أقوى في الفهم الشامل والاستنتاج العميق مقارنةً بالمعايير الحالية، إذ أن القصص السابقة لا تشكل جزءًا من القصة الأصلية، وبالتالي يتطلب تقييم مصداقية هذه القصص عادةً البحث عن المعلومات ودمجها من مصادر غير مباشرة الارتباط. من الناحية التجريبية، تتطلب 88٪ من الحالات أدلة من أجزاء متعددة من السرد. تُظهر النتائج التجريبية صعوبة المهمة: فجميع الأساليب المتبعة، مثل التعلّم في السياق (in-context learning)، وتقنيات RAG، والتدريب داخل المجال باستخدام نماذج لغة متقدمة (LLMs)، وخدمات DeepResearch التجارية، تتأخر عن الأداء البشري بفارق يزيد عن 15٪. كما كشفت دراسة إضافية على البشر أن النماذج تُقدّم أحيانًا إجابات صحيحة ولكن بأساليب استنتاج خاطئة، ما يؤدي إلى فجوة تزيد عن 30٪ في دقة الاستنتاج مقارنةً بالبشر. تُبرز هذه النتائج الفجوة الكبيرة التي تظل قائمة في مجال الفهم والاستنتاج طويل السياق، مما يشير إلى الحاجة الملحة لتحسينات كبيرة في هذا المجال.