2 个月前

基于图像的表格识别:数据、模型与评估

Xu Zhong; Elaheh ShafieiBavani; Antonio Jimeno Yepes
基于图像的表格识别:数据、模型与评估
摘要

文档中与特定主题相关的重要信息通常以表格形式组织,以便读者进行信息检索和比较,这在自然语言中可能难以实现。然而,非结构化数字文档(如便携式文档格式(PDF)和图像)中的表格数据由于其结构和样式的复杂性和多样性,很难解析为结构化的机器可读格式。为了促进基于图像的表格识别技术的发展,我们开发了目前最大的公开可用表格识别数据集PubTabNet(https://github.com/ibm-aur-nlp/PubTabNet),该数据集包含568,000张带有相应结构化HTML表示的表格图像。PubTabNet通过匹配PubMed Central开放获取子集(PMCOA)中科学文章的XML和PDF表示自动生成。此外,我们提出了一种新颖的基于注意力机制的编码器-双解码器(EDD)架构,该架构可以将表格图像转换为HTML代码。该模型具有一个结构解码器,用于重建表格结构并帮助单元格解码器识别单元格内容。另外,我们还提出了一种新的基于树编辑距离的相似度(TEDS)度量方法,用于表格识别,相比现有的度量方法,TEDS能更恰当地捕捉多跳单元格错位和光学字符识别(OCR)错误。实验结果表明,EDD模型仅依赖图像表示就能准确识别复杂的表格,并且在TEDS得分上比现有最先进技术提高了9.7%的绝对值。

基于图像的表格识别:数据、模型与评估 | 最新论文 | HyperAI超神经