DocBank-Textdatensatz
Datum
vor 3 Jahren
Größe
48.1 GB
Veröffentlichungs-URL
Paper-URL
Tags

DocBank ist ein Textdatensatz. Der Datensatz enthält 500.000 Dokumentseiten mit detaillierten Anmerkungen auf Begriffsebene für die Analyse des Dokumentlayouts. Der Datensatz ist auf einfache, aber effektive Weise aufgebaut, mit schwacher Überwachung durch \LaTeX{}-Dokumente, die auf arXiv.com verfügbar sind.
DocBank.torrent
Seeding 2Herunterladen 0Abgeschlossen 381Gesamtdownloads 695