HyperAI초신경

DocBank 텍스트 데이터 세트

날짜

3년 전

크기

48.1 GB

기관

베이징 항공우주대학

발행 주소

github.com

카테고리

特色图像

DocBank는 텍스트 데이터 세트입니다. 이 데이터 세트에는 문서 레이아웃 분석을 위한 세분화된 용어 수준 주석이 포함된 50만 개의 문서 페이지가 포함되어 있습니다. 이 데이터 세트는 arXiv.com에서 제공되는 \LaTeX{} 문서의 약한 감독을 통해 간단하면서도 효과적인 방식으로 구성되었습니다.

DocBank.torrent
시딩 1다운로드 중 2완료됨 299총 다운로드 횟수 613
  • DocBank/
    • README.md
      967 字节
    • README.txt
      1.89 KB
      • data/
        • DocBank_500K_ori_img.zip.001
          5 GB
        • DocBank_500K_ori_img.zip.002
          10 GB
        • DocBank_500K_ori_img.zip.003
          15 GB
        • DocBank_500K_ori_img.zip.004
          20 GB
        • DocBank_500K_ori_img.zip.005
          25 GB
        • DocBank_500K_ori_img.zip.006
          30 GB
        • DocBank_500K_ori_img.zip.007
          35 GB
        • DocBank_500K_ori_img.zip.008
          40 GB
        • DocBank_500K_ori_img.zip.009
          45 GB
        • DocBank_500K_ori_img.zip.010
          47.41 GB
        • DocBank_500K_txt.zip
          47.9 GB
        • MSCOCO_Format_Annotation.zip
          48.1 GB