
摘要
从科学论文和财务报告等文档中提取表格内容并将其转换为大型语言模型可处理的格式,是知识信息处理中的一个重要任务。端到端方法不仅识别表格结构,还识别单元格内容,其性能已达到与使用外部字符识别系统的最先进模型相当的水平,并且具有进一步改进的潜力。此外,通过引入局部注意力机制,这些模型现在可以识别包含数百个单元格的长表格。然而,这些模型仅在一个方向上(从表头到表尾)识别表格结构,并且每个单元格的内容识别是独立进行的,因此无法从相邻单元格中获取有用的信息。在本文中,我们提出了一种多单元格内容解码器和双向互学习机制来改进端到端方法。我们在两个大规模数据集上验证了该方法的有效性,实验结果表明,即使对于包含大量单元格的长表格,该方法的性能也与最先进模型相当。