2 个月前

CED:从文档中提取目录

Tong Zhu; Guoliang Zhang; Zechang Li; Zijian Yu; Junfei Ren; Mengsong Wu; Zhefeng Wang; Baoxing Huai; Pingfu Chao; Wenliang Chen
CED:从文档中提取目录
摘要

从长文档中逐句提取信息是一项耗时且容易出错的任务。目录作为文档骨架的指示器,自然地将文档分段并提供有层次的信息语义,有助于缩小搜索范围。尽管目录非常有用,但在没有外部知识辅助的情况下很难提取。对于遵循特定模板的文档,正则表达式可以有效地提取目录。然而,手工编写的启发式规则在处理来自不同来源且格式多样的文档时并不适用。为了解决这一问题,我们构建了一个大规模的手动标注语料库,这是首个用于从文档中提取目录(Catalog Extraction from Documents, CED)任务的数据集。基于该语料库,我们提出了一种基于转换的框架来解析文档生成目录树。实验结果表明,我们的方法优于基线系统,并展示了良好的迁移能力。我们认为,CED任务可以在原始文本片段与极长文档的信息提取任务之间架起桥梁。数据和代码可在以下网址获取:\url{https://github.com/Spico197/CatalogExtraction}

CED:从文档中提取目录 | 最新论文 | HyperAI超神经