HyperAI

Ensemble De Données Textuelles DocBank

Date

il y a 3 ans

Taille

48.1 GB

Organisation

Université d'aéronautique et d'astronautique de Pékin

URL de publication

github.com

Catégories

特色图像

DocBank est un ensemble de données textuelles. L'ensemble de données contient 500 000 pages de documents avec des annotations fines au niveau des termes pour l'analyse de la mise en page des documents. L'ensemble de données est construit de manière simple mais efficace, avec une supervision faible à partir de documents \LaTeX{} disponibles sur arXiv.com.

DocBank.torrent
Partage 1Téléchargement 2Terminés 299Téléchargements totaux 613
  • DocBank/
    • README.md
      967 字节
    • README.txt
      1.89 KB
      • data/
        • DocBank_500K_ori_img.zip.001
          5 GB
        • DocBank_500K_ori_img.zip.002
          10 GB
        • DocBank_500K_ori_img.zip.003
          15 GB
        • DocBank_500K_ori_img.zip.004
          20 GB
        • DocBank_500K_ori_img.zip.005
          25 GB
        • DocBank_500K_ori_img.zip.006
          30 GB
        • DocBank_500K_ori_img.zip.007
          35 GB
        • DocBank_500K_ori_img.zip.008
          40 GB
        • DocBank_500K_ori_img.zip.009
          45 GB
        • DocBank_500K_ori_img.zip.010
          47.41 GB
        • DocBank_500K_txt.zip
          47.9 GB
        • MSCOCO_Format_Annotation.zip
          48.1 GB