DocBank 文本数据集

数据集下载 磁力链 下载帮助

DocBank 是一个文本数据集。数据集包含 50 万个细粒度、词条级别标注的文档页面,用于文档布局分析。数据集使用一种简单而有效的方式构建,有 arXiv.com 上提供的 \LaTeX{} 文档的弱监督。

2 做种 0 下载 50 已完成
  • DocBank/README.md 967 B
  • DocBank/README.txt 967 B
  • DocBank/data/DocBank_500K_ori_img.zip.001 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.002 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.003 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.004 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.005 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.006 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.007 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.008 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.009 5 GB
  • DocBank/data/DocBank_500K_ori_img.zip.010 2.41 GB
  • DocBank/data/DocBank_500K_txt.zip 500.88 MB
  • DocBank/data/MSCOCO_Format_Annotation.zip 199.29 MB