8 个月前

多模态表征

Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei

摘要

自监督预训练技术在文档人工智能（Document AI）领域取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示，但在图像模态的预训练目标上存在差异。这种差异增加了多模态表示学习的难度。本文中，我们提出了LayoutLMv3，通过统一的文本和图像掩码方法对多模态Transformer进行预训练，以解决这一问题。此外，LayoutLMv3还通过一个词-块对齐目标进行预训练，该目标通过预测某个文本词对应的图像块是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使得LayoutLMv3成为适用于以文本为中心和以图像为中心的文档人工智能任务的通用预训练模型。实验结果表明，LayoutLMv3不仅在以文本为中心的任务中（如表单理解、收据理解和文档视觉问答）达到了最先进的性能，而且在以图像为中心的任务中（如文档图像分类和文档布局分析）也表现出色。代码和模型已在 \url{https://aka.ms/layoutlmv3} 公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei

摘要

自监督预训练技术在文档人工智能（Document AI）领域取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示，但在图像模态的预训练目标上存在差异。这种差异增加了多模态表示学习的难度。本文中，我们提出了LayoutLMv3，通过统一的文本和图像掩码方法对多模态Transformer进行预训练，以解决这一问题。此外，LayoutLMv3还通过一个词-块对齐目标进行预训练，该目标通过预测某个文本词对应的图像块是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使得LayoutLMv3成为适用于以文本为中心和以图像为中心的文档人工智能任务的通用预训练模型。实验结果表明，LayoutLMv3不仅在以文本为中心的任务中（如表单理解、收据理解和文档视觉问答）达到了最先进的性能，而且在以图像为中心的任务中（如文档图像分类和文档布局分析）也表现出色。代码和模型已在 \url{https://aka.ms/layoutlmv3} 公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供