HyperAIHyperAI

Command Palette

Search for a command to run...

CED:从文档中提取目录

Tong Zhu Guoliang Zhang Zechang Li Zijian Yu Junfei Ren Mengsong Wu Zhefeng Wang Baoxing Huai Pingfu Chao Wenliang Chen

摘要

从长文档中逐句提取信息是一项耗时且容易出错的任务。目录作为文档骨架的指示器,自然地将文档分段并提供有层次的信息语义,有助于缩小搜索范围。尽管目录非常有用,但在没有外部知识辅助的情况下很难提取。对于遵循特定模板的文档,正则表达式可以有效地提取目录。然而,手工编写的启发式规则在处理来自不同来源且格式多样的文档时并不适用。为了解决这一问题,我们构建了一个大规模的手动标注语料库,这是首个用于从文档中提取目录(Catalog Extraction from Documents, CED)任务的数据集。基于该语料库,我们提出了一种基于转换的框架来解析文档生成目录树。实验结果表明,我们的方法优于基线系统,并展示了良好的迁移能力。我们认为,CED任务可以在原始文本片段与极长文档的信息提取任务之间架起桥梁。数据和代码可在以下网址获取:\url{https://github.com/Spico197/CatalogExtraction}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供