2 个月前

LiLT:一种简单而有效的语言无关布局变换器用于结构化文档理解

Wang, Jiapeng ; Jin, Lianwen ; Ding, Kai
LiLT:一种简单而有效的语言无关布局变换器用于结构化文档理解
摘要

结构化文档理解近年来受到了广泛关注并取得了显著进展,这主要归功于其在智能文档处理中的关键作用。然而,大多数现有的相关模型只能处理预训练数据集中包含的特定语言(通常是英语)的文档数据,这种局限性极大。为了解决这一问题,我们提出了一种简单而有效的无语言依赖布局变换器(Language-independent Layout Transformer, LiLT),用于结构化文档理解。LiLT 可以在单一语言的结构化文档上进行预训练,然后直接使用现成的单语或多语预训练文本模型对其他语言进行微调。实验结果表明,在八种不同语言上,LiLT 在多种广泛使用的下游基准测试中表现出色甚至优于现有方法,从而实现了从文档布局结构预训练中获得无语言依赖的好处。代码和模型已在 https://github.com/jpWang/LiLT 公开发布。

LiLT:一种简单而有效的语言无关布局变换器用于结构化文档理解 | 最新论文 | HyperAI超神经