HyperAI

مجموعة بيانات نصية DocBank

التاريخ

منذ 3 أعوام

الحجم

48.1 GB

المؤسسة

جامعة بكين للملاحة الجوية والفضائية

رابط النشر

github.com

العلامات

特色图像

DocBank عبارة عن مجموعة بيانات نصية. تحتوي مجموعة البيانات على 500000 صفحة مستند مع تعليقات توضيحية دقيقة على مستوى المصطلح لتحليل تخطيط المستند. تم إنشاء مجموعة البيانات بطريقة بسيطة وفعالة، مع إشراف ضعيف من مستندات \LaTeX{} المتوفرة على arXiv.com.

DocBank.torrent
البذر 1التنزيل 2مكتمل 299إجمالي التنزيلات 613
  • DocBank/
    • README.md
      967 字节
    • README.txt
      1.89 KB
      • data/
        • DocBank_500K_ori_img.zip.001
          5 GB
        • DocBank_500K_ori_img.zip.002
          10 GB
        • DocBank_500K_ori_img.zip.003
          15 GB
        • DocBank_500K_ori_img.zip.004
          20 GB
        • DocBank_500K_ori_img.zip.005
          25 GB
        • DocBank_500K_ori_img.zip.006
          30 GB
        • DocBank_500K_ori_img.zip.007
          35 GB
        • DocBank_500K_ori_img.zip.008
          40 GB
        • DocBank_500K_ori_img.zip.009
          45 GB
        • DocBank_500K_ori_img.zip.010
          47.41 GB
        • DocBank_500K_txt.zip
          47.9 GB
        • MSCOCO_Format_Annotation.zip
          48.1 GB