مجموعة بيانات المقالات الإخبارية لـ CNN/DailyMail
التاريخ
الحجم
رابط النشر
العلامات
الفئات
تحتوي مجموعة البيانات على أكثر من 300 ألف مقالة إخبارية فريدة كتبها صحفيو CNN وDaily Mail. يدعم الإصدار الحالي التلخيص الاستخراجي والتجريدي، ولكن تم إنشاء الإصدار الأصلي للقراءة الآلية والفهم والإجابة على الأسئلة التجريدية. الغرض من هذه المجموعة من البيانات هو المساعدة في تطوير نماذج يمكنها تلخيص فقرات طويلة من النص في جملة أو جملتين، وهي مهمة مفيدة لتقديم المعلومات بكفاءة من كميات كبيرة من النص.
حقول البيانات
id
:سلسلة تحتوي على تجزئة SHA1 لعنوان URL لاسترداد القصة بتنسيق سداسي عشريarticle
:سلسلة تحتوي على نص المقالة الإخباريةhighlights
:سلسلة تحتوي على أبرز ما كتبه مؤلف المقال
تقسيم البيانات
تنقسم مجموعة بيانات CNN/DailyMail إلى 3 أجزاء: التدريب والتحقق والاختبار. وفيما يلي إحصائيات الإصدار 3.0.0 من مجموعة البيانات.
تقسيم مجموعة البيانات | عدد الحالات في الانقسام |
---|---|
يدرب | 287,113 |
تصديق | 13,368 |
امتحان | 11,490 |
إنشاء مجموعة البيانات
تاريخ الخلق
تهدف النسخة 1.0.0 إلى الاستفادة من كميات كبيرة من بيانات تدريب اللغة الطبيعية الحقيقية لدعم الأساليب العصبية الخاضعة للإشراف للقراءة الآلية والإجابة على الأسئلة، وقد أصدرت ما يقرب من 313000 مقالة فريدة وما يقرب من مليون سؤال على غرار الألغاز التي تتوافق مع المقالات. لقد قامت الإصدارات 2.0.0 و3.0.0 بتغيير بنية مجموعة البيانات لدعم التلخيص بدلاً من الإجابة على الأسئلة. توفر الإصدار 3.0.0 إصدارًا غير مجهول المصدر للبيانات، في حين تمت معالجة الإصدارين السابقين مسبقًا لاستبدال الكيانات المسماة بملصقات معرف فريدة.
بيانات المصدر
جمع البيانات الأولية وتطبيعها
تتكون البيانات من مقالات إخبارية وجمل مميزة. في إعداد الإجابة على الأسئلة في بياناتنا، يتم استخدام المقالة كسياق ويتم إخفاء الكيانات في الجمل المميزة واحدة تلو الأخرى، مما يؤدي إلى إنشاء أسئلة على غرار الأسئلة المغلقة حيث يكون هدف النموذج هو تخمين الكيان الذي تم إخفاؤه في السياق بشكل صحيح. في إعداد الملخص، يتم تجميع الجمل المميزة لتكوين ملخص للمقالة. تمت كتابة مقالات CNN في الفترة ما بين أبريل 2007 وأبريل 2015. وتم كتابة مقالات DailyMail في الفترة ما بين يونيو 2010 وأبريل 2015.
الكود الخاص بجمع البيانات الأصلية متاح على https://github.com/deepmind/rc-data تم العثور عليه. تم رفع المقال باستخدام Wayback Machine www.cnn.com>وwww.dailymail.co.uk> تنزيل الملف. إذا تجاوزت المقالة 2000 علامة، فلن يتم تضمينها في مجموعة الإصدار 1.0.0.