HyperAIHyperAI

DocBank-Textdatensatz

Datum

vor 3 Jahren

Größe

48.1 GB

Organisation

Universität für Luft- und Raumfahrt Peking

Veröffentlichungs-URL

github.com

Paper-URL

arxiv.org

特色图像

DocBank ist ein Textdatensatz. Der Datensatz enthält 500.000 Dokumentseiten mit detaillierten Anmerkungen auf Begriffsebene für die Analyse des Dokumentlayouts. Der Datensatz ist auf einfache, aber effektive Weise aufgebaut, mit schwacher Überwachung durch \LaTeX{}-Dokumente, die auf arXiv.com verfügbar sind.

DocBank.torrent
Seeding 2Herunterladen 0Abgeschlossen 381Gesamtdownloads 695
  • DocBank/
    • README.md
      967 字节
    • README.txt
      1.89 KB
      • data/
        • DocBank_500K_ori_img.zip.001
          5 GB
        • DocBank_500K_ori_img.zip.002
          10 GB
        • DocBank_500K_ori_img.zip.003
          15 GB
        • DocBank_500K_ori_img.zip.004
          20 GB
        • DocBank_500K_ori_img.zip.005
          25 GB
        • DocBank_500K_ori_img.zip.006
          30 GB
        • DocBank_500K_ori_img.zip.007
          35 GB
        • DocBank_500K_ori_img.zip.008
          40 GB
        • DocBank_500K_ori_img.zip.009
          45 GB
        • DocBank_500K_ori_img.zip.010
          47.41 GB
        • DocBank_500K_txt.zip
          47.9 GB
        • MSCOCO_Format_Annotation.zip
          48.1 GB
DocBank-Textdatensatz | Datensätze | HyperAI