LCSTS: مجموعة بيانات كبيرة لتلخيص النصوص القصيرة باللغة الصينية

يُعتبر تلخيص النص التلقائي مشكلةً معقدةً للغاية، جزئياً بسبب نقص المجموعات الكبيرة من بيانات تلخيص النص. نظراً للتحدي الكبير في إنشاء ملخصات على نطاق واسع للنصوص الكاملة، فإن هذه الورقة البحثية تقدم مجموعة بيانات كبيرة لملخصات النصوص القصيرة باللغة الصينية تم بناؤها من موقع التدوينات المصغرة الصيني "سينا وييبو" (Sina Weibo)، والتي تم إطلاقها للجمهور {http://icrc.hitsz.edu.cn/Article/show/139.html}. تتكون هذه المجموعة من أكثر من مليوني نص قصير حقيقي باللغة الصينية، لكل منها ملخص قصير قدمه كاتب النص. كما قمنا بتقييم صلة 10,666 ملخص قصير يدويًا بنصوصهم القصيرة المقابلة. استنادًا إلى هذه المجموعة، نقدم شبكة عصبية متكررة لإنشاء الملخصات ونحقق نتائجًا واعدة، مما يظهر ليس فقط فائدة المجموعة المقترحة في أبحاث تلخيص النصوص القصيرة، بل يوفر أيضًا نقطة انطلاق للمزيد من الأبحاث حول هذا الموضوع.