HyperAI

DocBank-Textdatensatz

Datum

vor 3 Jahren

Größe

48.1 GB

Organisation

Universität für Luft- und Raumfahrt Peking

Veröffentlichungs-URL

github.com

Kategorien

特色图像

DocBank ist ein Textdatensatz. Der Datensatz enthält 500.000 Dokumentseiten mit detaillierten Anmerkungen auf Begriffsebene für die Analyse des Dokumentlayouts. Der Datensatz ist auf einfache, aber effektive Weise aufgebaut, mit schwacher Überwachung durch \LaTeX{}-Dokumente, die auf arXiv.com verfügbar sind.

DocBank.torrent
Seeding 1Herunterladen 2Abgeschlossen 299Gesamtdownloads 613
  • DocBank/
    • README.md
      967 字节
    • README.txt
      1.89 KB
      • data/
        • DocBank_500K_ori_img.zip.001
          5 GB
        • DocBank_500K_ori_img.zip.002
          10 GB
        • DocBank_500K_ori_img.zip.003
          15 GB
        • DocBank_500K_ori_img.zip.004
          20 GB
        • DocBank_500K_ori_img.zip.005
          25 GB
        • DocBank_500K_ori_img.zip.006
          30 GB
        • DocBank_500K_ori_img.zip.007
          35 GB
        • DocBank_500K_ori_img.zip.008
          40 GB
        • DocBank_500K_ori_img.zip.009
          45 GB
        • DocBank_500K_ori_img.zip.010
          47.41 GB
        • DocBank_500K_txt.zip
          47.9 GB
        • MSCOCO_Format_Annotation.zip
          48.1 GB