日期
大小
机构
发布地址
github.com
标签
分类
DocBank 是一个文本数据集。数据集包含 50 万个细粒度、词条级别标注的文档页面,用于文档布局分析。数据集使用一种简单而有效的方式构建,有 arXiv.com 上提供的 \LaTeX{} 文档的弱监督。