HyperAIHyperAI

Command Palette

Search for a command to run...

TLDR9+: مورد كبير لموجزات متطرفة لمنشورات وسائل التواصل الاجتماعي

Sajad Sotudeh; Hanieh Deilamsalehy; Franck Dernoncourt; Nazli Goharian

الملخص

النماذج الحديثة في تطوير أنظمة التلخيص تتكون من ملايين المعلمات، وأداء النموذج يعتمد بشكل كبير على وفرة بيانات التدريب. بينما تحتوي معظم المجموعات الحالية للتلخيص على بيانات تتراوح بين الآلاف ومليون، فإن إنشاء مجموعات بيانات للتلخيص على نطاق كبير بحجم بضعة ملايين لم يتم استكشافه بعد. عملياً، البيانات الأكثر تكون أفضل في تعميم أنماط التدريب إلى البيانات غير المعروفة. في هذا البحث، نقدم مجموعة بيانات التلخيص على نطاق كبير TLDR9+ -- التي تحتوي على أكثر من 9 ملايين حالة تدريبية تم استخراجها من منتدى المناقشة Reddit (https://github.com/sajastu/reddit_collector). تم جمع هذه المجموعة خصيصًا لأداء التلخيص المتطرف (أي إنتاج ملخص جملة واحدة بضغط عالي وإجراءات مجردة) وهي أكبر بأكثر من الضعف من المجموعة المقترحة سابقًا. نتقدم خطوة أخرى ونستخلص مجموعة بيانات أكثر دقة باستخدام شروح بشرية، حيث نقوم باختيار حالات ذات جودة عالية من TLDR9+ وندعوها مجموعة بيانات TLDRHQ. كما نحدد أداء مختلف النماذج الرائدة في مجال التلخيص على مجموعات البيانات المقترحة لدينا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp