TLDR9+: مورد كبير لموجزات متطرفة لمنشورات وسائل التواصل الاجتماعي

النماذج الحديثة في تطوير أنظمة التلخيص تتكون من ملايين المعلمات، وأداء النموذج يعتمد بشكل كبير على وفرة بيانات التدريب. بينما تحتوي معظم المجموعات الحالية للتلخيص على بيانات تتراوح بين الآلاف ومليون، فإن إنشاء مجموعات بيانات للتلخيص على نطاق كبير بحجم بضعة ملايين لم يتم استكشافه بعد. عملياً، البيانات الأكثر تكون أفضل في تعميم أنماط التدريب إلى البيانات غير المعروفة. في هذا البحث، نقدم مجموعة بيانات التلخيص على نطاق كبير TLDR9+ -- التي تحتوي على أكثر من 9 ملايين حالة تدريبية تم استخراجها من منتدى المناقشة Reddit (https://github.com/sajastu/reddit_collector). تم جمع هذه المجموعة خصيصًا لأداء التلخيص المتطرف (أي إنتاج ملخص جملة واحدة بضغط عالي وإجراءات مجردة) وهي أكبر بأكثر من الضعف من المجموعة المقترحة سابقًا. نتقدم خطوة أخرى ونستخلص مجموعة بيانات أكثر دقة باستخدام شروح بشرية، حيث نقوم باختيار حالات ذات جودة عالية من TLDR9+ وندعوها مجموعة بيانات TLDRHQ. كما نحدد أداء مختلف النماذج الرائدة في مجال التلخيص على مجموعات البيانات المقترحة لدينا.