منذ 8 أشهر

الملخص

النماذج الحديثة في تطوير أنظمة التلخيص تتكون من ملايين المعلمات، وأداء النموذج يعتمد بشكل كبير على وفرة بيانات التدريب. بينما تحتوي معظم المجموعات الحالية للتلخيص على بيانات تتراوح بين الآلاف ومليون، فإن إنشاء مجموعات بيانات للتلخيص على نطاق كبير بحجم بضعة ملايين لم يتم استكشافه بعد. عملياً، البيانات الأكثر تكون أفضل في تعميم أنماط التدريب إلى البيانات غير المعروفة. في هذا البحث، نقدم مجموعة بيانات التلخيص على نطاق كبير TLDR9+ -- التي تحتوي على أكثر من 9 ملايين حالة تدريبية تم استخراجها من منتدى المناقشة Reddit (https://github.com/sajastu/reddit_collector). تم جمع هذه المجموعة خصيصًا لأداء التلخيص المتطرف (أي إنتاج ملخص جملة واحدة بضغط عالي وإجراءات مجردة) وهي أكبر بأكثر من الضعف من المجموعة المقترحة سابقًا. نتقدم خطوة أخرى ونستخلص مجموعة بيانات أكثر دقة باستخدام شروح بشرية، حيث نقوم باختيار حالات ذات جودة عالية من TLDR9+ وندعوها مجموعة بيانات TLDRHQ. كما نحدد أداء مختلف النماذج الرائدة في مجال التلخيص على مجموعات البيانات المقترحة لدينا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار