FENICE: تقييم الدقة في التلخيص بناءً على الاستدلال اللغوي واستخراج الادعاءات

التطورات الحديثة في تلخيص النصوص، وبشكل خاص مع ظهور نماذج اللغات الكبيرة (LLMs)، أظهرت أداءً ملحوظًا. ومع ذلك، لا يزال هناك تحدي بارز يتمثل في وجود عدد كبير من الملخصات المولدة تلقائيًا التي تعاني من عدم اتساق واقعي، مثل الأوهام. كرد على هذه المشكلة، ظهرت العديد من الأساليب لتقييم الاتساق في التلخيص. ومع ذلك، فإن هذه المقاييس الجديدة تواجه عدة قيود، بما في ذلك نقص القابلية للتفهم، التركيز على ملخصات الوثائق القصيرة (مثل مقالات الأخبار)، وعدم جدوى الحسابات خاصة بالنسبة للمقاييس المستندة إلى نماذج اللغات الكبيرة. لمعالجة هذه العيوب، نقترح تقييم الوقائع في التلخيص استنادًا إلى الاستدلال اللغوي واستخراج المزاعم (FENICE)، وهو مقاس أكثر قابلية للتفهم وكفاءة يركز على الوقائع. يستخدم FENICE تنسيقًا مستندًا إلى الاستدلال اللغوي بين المعلومات الواردة في الوثيقة المصدر ومجموعة من الحقائق الذرية، المعروفة بالمزاعم، المستخرجة من الملخص. يحدد مقاسنا هذا حالة فنية جديدة على AGGREFACT، وهو المعيار الفعلي لتقييم الوقائع. بالإضافة إلى ذلك، نوسع تقييمنا إلى إعداد أكثر تحديًا عبر إجراء عملية تسمية بشرية للتلخيص الطويل. وفي أمل تعزيز البحث في تقييم الوقائع في التلخيص، نقوم بنشر رمز برنامج مقاسنا وتسمياتنا للوقائع في التلخيص الطويل على https://github.com/Babelscape/FENICE.