DocBank-Textdatensatz
Datum
vor 3 Jahren
Größe
48.1 GB
Veröffentlichungs-URL
Tags
Kategorien

DocBank ist ein Textdatensatz. Der Datensatz enthält 500.000 Dokumentseiten mit detaillierten Anmerkungen auf Begriffsebene für die Analyse des Dokumentlayouts. Der Datensatz ist auf einfache, aber effektive Weise aufgebaut, mit schwacher Überwachung durch \LaTeX{}-Dokumente, die auf arXiv.com verfügbar sind.
DocBank.torrent
Seeding 1Herunterladen 2Abgeschlossen 299Gesamtdownloads 613