6 个月前

计算机视觉

Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang

摘要

文本图像同时包含视觉与语言信息。然而，现有的文本识别预训练技术主要集中在视觉表征学习或语言知识学习中的单一方向。本文提出一种名为MaskOCR的新方法，在经典的编码器-解码器识别框架下，实现视觉与语言的统一预训练。我们采用掩码图像建模（masked image modeling）方法，利用大量未标注的真实文本图像对特征编码器进行预训练，从而学习到强大的视觉表征。与引入额外语言模型来注入语言知识的传统方式不同，我们直接对序列解码器进行预训练。具体而言，我们将文本数据转换为合成的文本图像，以统一视觉与语言的数据模态，并通过一种提出的掩码图像-语言建模（masked image-language modeling）策略，增强序列解码器的语言建模能力。值得注意的是，在序列解码器的预训练阶段，编码器保持冻结状态。实验结果表明，所提出的方法在多个基准数据集上均取得了优异性能，涵盖中英文文本图像。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang

摘要

文本图像同时包含视觉与语言信息。然而，现有的文本识别预训练技术主要集中在视觉表征学习或语言知识学习中的单一方向。本文提出一种名为MaskOCR的新方法，在经典的编码器-解码器识别框架下，实现视觉与语言的统一预训练。我们采用掩码图像建模（masked image modeling）方法，利用大量未标注的真实文本图像对特征编码器进行预训练，从而学习到强大的视觉表征。与引入额外语言模型来注入语言知识的传统方式不同，我们直接对序列解码器进行预训练。具体而言，我们将文本数据转换为合成的文本图像，以统一视觉与语言的数据模态，并通过一种提出的掩码图像-语言建模（masked image-language modeling）策略，增强序列解码器的语言建模能力。值得注意的是，在序列解码器的预训练阶段，编码器保持冻结状态。实验结果表明，所提出的方法在多个基准数据集上均取得了优异性能，涵盖中英文文本图像。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供