HyperAI

مجموعة بيانات نصوص الأخبار الإنجليزية من AQUAINT

التاريخ

منذ 6 أعوام

المؤسسة

جامعة بنسلفانيا

رابط النشر

catalog.ldc.upenn.edu

مساعدة التنزيل

تتكون مجموعة بيانات AQUAINT Corpus of English News Text من بيانات نصية من وكالات الأنباء الإنجليزية، وتستخدم بشكل أساسي لتلخيص النصوص.

تم تجميع مجموعة البيانات، التي تتضمن ما يقرب من 375 مليون كلمة من وكالة أنباء شينخوا وخدمة أخبار نيويورك تايمز وخدمة أخبار أسوشيتد برس العالمية، بواسطة اتحاد البيانات اللغوية (LDC) لمشروع AQUAINT لاستخدامها في تقييم معياري رسمي من قبل المعهد الوطني للمعايير والتكنولوجيا (NIST).

تم إصدار مجموعة بيانات AQUAINT Corpus of English News Text بواسطة جامعة بنسلفانيا في سبتمبر 2002، وكان ناشرها الرئيسي هو ديفيد جراف.