CiteSum: التلخيص العلمي الموجه بنص الاستشهاد والتكيف النطقي بوجود إشراف محدود

الملخص العلمي المكثف (TLDR) يهدف إلى إنشاء ملخصات قصيرة جداً لأوراق البحث العلمية. فشلت الجهود السابقة في تجميع مجموعات بيانات TLDR العلمية في التوسع بسبب الحاجة الكبيرة للتدقيق البشري والخبرة المتخصصة في المجال. في هذا البحث، نقترح طريقة بسيطة ومعتبرة لاستخراج الملخصات المكثفة تلقائياً من النصوص الاستشهادية لأوراق البحث العلمية. استناداً إلى الطريقة المقترحة، أنشأنا مقاييس جديدة تُسمى CiteSum دون الحاجة للتدقيق البشري، وهي أكبر بحوالي 30 مرة من مجموعة البيانات السابقة التي تم تجميعها يدوياً SciTLDR. أجرينا تحليلًا شاملًا لـ CiteSum، حيث فحصنا خصائص بياناتها وأقمنا خطوط أساس قوية. علاوة على ذلك، أظهرنا فائدة CiteSum من خلال تكييف النماذج التي تم تدريبها مسبقًا على CiteSum (وتُسمى CITES) للمهام والمجالات الجديدة مع إشراف محدود. فيما يتعلق بالملخص العلمي المكثف، حققت CITES أفضل النتائج مقارنة بأغلب الطرق ذات الإشراف الكامل على SciTLDR دون أي تعديل دقيق وحصلت على أفضل النتائج الحالية باستخدام فقط 128 مثالاً. بالنسبة لملخص الأخبار المكثف، حققت CITES ارتفاعاً كبيراً في أدائها على XSum مقارنة بنموذجها الأساسي (الذي لم يتم تدريبه مسبقاً على CiteSum)، مثل +7.2 نقطة في مؤشر ROUGE-1 للأداء بدون إشراف ونتائج قليلة الإشراف تعتبر الأفضل حاليًا. بالنسبة لإنشاء عناوين الأخبار، كانت CITES الأفضل بين الطرق غير المشرف عليها والأداء بدون إشراف على Gigaword. يمكن العثور على مجموعة البيانات وكود البرامج الخاصة بنا في https://github.com/morningmoni/CiteSum.