مجموعة بيانات نصوص الأخبار الإنجليزية من AQUAINT
التاريخ
منذ 6 أعوام
رابط النشر
الفئات
تتكون مجموعة بيانات AQUAINT Corpus of English News Text من بيانات نصية من وكالات الأنباء الإنجليزية، وتستخدم بشكل أساسي لتلخيص النصوص.
تم تجميع مجموعة البيانات، التي تتضمن ما يقرب من 375 مليون كلمة من وكالة أنباء شينخوا وخدمة أخبار نيويورك تايمز وخدمة أخبار أسوشيتد برس العالمية، بواسطة اتحاد البيانات اللغوية (LDC) لمشروع AQUAINT لاستخدامها في تقييم معياري رسمي من قبل المعهد الوطني للمعايير والتكنولوجيا (NIST).
تم إصدار مجموعة بيانات AQUAINT Corpus of English News Text بواسطة جامعة بنسلفانيا في سبتمبر 2002، وكان ناشرها الرئيسي هو ديفيد جراف.