11 天前

MaskOCR:基于掩码编码器-解码器预训练的文本识别

Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
MaskOCR:基于掩码编码器-解码器预训练的文本识别
摘要

文本图像同时包含视觉与语言信息。然而,现有的文本识别预训练技术主要集中在视觉表征学习或语言知识学习中的单一方向。本文提出一种名为MaskOCR的新方法,在经典的编码器-解码器识别框架下,实现视觉与语言的统一预训练。我们采用掩码图像建模(masked image modeling)方法,利用大量未标注的真实文本图像对特征编码器进行预训练,从而学习到强大的视觉表征。与引入额外语言模型来注入语言知识的传统方式不同,我们直接对序列解码器进行预训练。具体而言,我们将文本数据转换为合成的文本图像,以统一视觉与语言的数据模态,并通过一种提出的掩码图像-语言建模(masked image-language modeling)策略,增强序列解码器的语言建模能力。值得注意的是,在序列解码器的预训练阶段,编码器保持冻结状态。实验结果表明,所提出的方法在多个基准数据集上均取得了优异性能,涵盖中英文文本图像。

MaskOCR:基于掩码编码器-解码器预训练的文本识别 | 最新论文 | HyperAI超神经