HyperAI

مجموعة براون

التاريخ

منذ 2 أعوام

الحجم

9.09 MB

المؤسسة

جامعة براون

رابط النشر

www.kaggle.com

مجموعة براون هي أول مجموعة نصوص للغة الإنجليزية الأمريكية، مأخوذة من نصوص الصحف والكتب والوثائق الحكومية حول مواضيع مختلفة. يحتوي على 1,014,312 كلمة ويُستخدم بشكل أساسي في نمذجة اللغة.

يحتوي النص الأصلي على جمل مُعلّق عليها يدويًا، وحدود رمزية، وتعليقات توضيحية لفئات الكلمات، بينما يحتوي النص المُحوّل على النص الكامل الذي أُعيد بناؤه استنادًا إلى إصدار TEI/XML من Brown Corpus والمتصل بفئة Word الأنطولوجية للاستعلامات المجمعة عبر OLiA.

تم نشر هذه المجموعة في الأصل بواسطة دبليو نيلسون فرانسيس وهنري كوسيرا من قسم اللغويات في جامعة براون في عامي 1963-1964 في ورقة بحثية بعنوان "التحليل الحاسوبي للغة الإنجليزية الأمريكية الحالية".

Brown Corpus.torrent
البذر 4التنزيل 0مكتمل 1,398إجمالي التنزيلات 3,453
  • Brown Corpus/
    • README.md
      1.49 KB
    • README.txt
      2.97 KB
      • data/
        • Brown Corpus.zip
          9.09 MB