HyperAI超神経

DocBank テキスト データセット

日付

3年前

サイズ

48.1 GB

組織

北京航空航天大学

公開URL

github.com

カテゴリ

特色图像

DocBank はテキスト データセットです。このデータ セットには、ドキュメント レイアウト分析用の、きめ細かいエントリーレベルの注釈付きドキュメント ページが 500,000 件含まれています。データセットは、arXiv.com で入手可能な \LaTeX{} ドキュメントからの弱い監視を伴う、シンプルかつ効率的なアプローチを使用して構築されています。

DocBank.torrent
シーディング 1ダウンロード中 2ダウンロード完了 299総ダウンロード数 613
  • DocBank/
    • README.md
      967 字节
    • README.txt
      1.89 KB
      • data/
        • DocBank_500K_ori_img.zip.001
          5 GB
        • DocBank_500K_ori_img.zip.002
          10 GB
        • DocBank_500K_ori_img.zip.003
          15 GB
        • DocBank_500K_ori_img.zip.004
          20 GB
        • DocBank_500K_ori_img.zip.005
          25 GB
        • DocBank_500K_ori_img.zip.006
          30 GB
        • DocBank_500K_ori_img.zip.007
          35 GB
        • DocBank_500K_ori_img.zip.008
          40 GB
        • DocBank_500K_ori_img.zip.009
          45 GB
        • DocBank_500K_ori_img.zip.010
          47.41 GB
        • DocBank_500K_txt.zip
          47.9 GB
        • MSCOCO_Format_Annotation.zip
          48.1 GB