HyperAIHyperAI
منذ 15 أيام

تحليل المحتوى وقرارات الميزانية في التلخيص الاستنتاجي للوثائق الطويلة

Marcio Fonseca, Yftah Ziser, Shay B. Cohen
تحليل المحتوى وقرارات الميزانية في التلخيص الاستنتاجي للوثائق الطويلة
الملخص

نُقدّم حجّة تُفيد بأن فصل اختيار المحتوى عن الميزانية المستخدمة لتغطية المحتوى البارز يُحسّن الأداء والقابلية للتطبيق في نماذج التلخيص الاستنتاجي. يُحقّق نهجنا، FactorSum، هذا الفصل من خلال تفكيك عملية التلخيص إلى خطوتين باستخدام دالة طاقة: (1) إنشاء نُسخ استنتاجية للتلخيص؛ (2) دمج هذه النُسخ في تلخيص نهائي، وفقًا لميزانية وإرشادات محتوى. قد تأتي هذه الإرشادات من مصادر مختلفة، بما في ذلك نموذج مستشار مثل BART أو BigBird، أو في وضع "الخبير المثالي" – من المُرجع. تُحقّق هذه الطريقة تحسينًا ملحوظًا في نقاط ROUGE على عدة معايير لملخصات المستندات الطويلة، ومنها PubMed وarXiv وGovReport. وبشكل خاص، يُظهر نموذجنا كفاءة عالية في التكيّف بين المجالات. فعند تدريبه فقط على عينات من PubMed، يحقق أداءً ممتازًا على arXiv بـ 46.29 نقطة ROUGE-1، مما يدل على أداء قوي ناتج عن مرونة أكبر في تكيّف الميزانية واختيار المحتوى الذي يقلّ تأثره بالهيكل النصي المُخصص للمجال.

تحليل المحتوى وقرارات الميزانية في التلخيص الاستنتاجي للوثائق الطويلة | أحدث الأوراق البحثية | HyperAI