HyperAIHyperAI

Command Palette

Search for a command to run...

FENICE: تقييم الدقة في التلخيص بناءً على الاستدلال اللغوي واستخراج الادعاءات

Alessandro Scirè Karim Ghonim Roberto Navigli

الملخص

التطورات الحديثة في تلخيص النصوص، وبشكل خاص مع ظهور نماذج اللغات الكبيرة (LLMs)، أظهرت أداءً ملحوظًا. ومع ذلك، لا يزال هناك تحدي بارز يتمثل في وجود عدد كبير من الملخصات المولدة تلقائيًا التي تعاني من عدم اتساق واقعي، مثل الأوهام. كرد على هذه المشكلة، ظهرت العديد من الأساليب لتقييم الاتساق في التلخيص. ومع ذلك، فإن هذه المقاييس الجديدة تواجه عدة قيود، بما في ذلك نقص القابلية للتفهم، التركيز على ملخصات الوثائق القصيرة (مثل مقالات الأخبار)، وعدم جدوى الحسابات خاصة بالنسبة للمقاييس المستندة إلى نماذج اللغات الكبيرة. لمعالجة هذه العيوب، نقترح تقييم الوقائع في التلخيص استنادًا إلى الاستدلال اللغوي واستخراج المزاعم (FENICE)، وهو مقاس أكثر قابلية للتفهم وكفاءة يركز على الوقائع. يستخدم FENICE تنسيقًا مستندًا إلى الاستدلال اللغوي بين المعلومات الواردة في الوثيقة المصدر ومجموعة من الحقائق الذرية، المعروفة بالمزاعم، المستخرجة من الملخص. يحدد مقاسنا هذا حالة فنية جديدة على AGGREFACT، وهو المعيار الفعلي لتقييم الوقائع. بالإضافة إلى ذلك، نوسع تقييمنا إلى إعداد أكثر تحديًا عبر إجراء عملية تسمية بشرية للتلخيص الطويل. وفي أمل تعزيز البحث في تقييم الوقائع في التلخيص، نقوم بنشر رمز برنامج مقاسنا وتسمياتنا للوقائع في التلخيص الطويل على https://github.com/Babelscape/FENICE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp