6 个月前

多模态表征

自然语言处理

Jiuxiang Gu Jason Kuen Vlad I. Morariu Handong Zhao Nikolaos Barmpalios Rajiv Jain Ani Nenkova Tong Sun

摘要

文档智能技术能够自动提取文档中的信息，并支持多种业务应用场景。近年来，基于大规模无标注文档数据集的自监督学习方法为降低人工标注成本开辟了极具前景的新方向，通过自监督目标训练模型实现高效学习。然而，目前大多数现有的文档预训练方法仍以语言模态为主导。为此，我们提出了UDoc——一种面向文档理解的新型统一预训练框架。UDoc旨在支持绝大多数文档理解任务，通过将Transformer架构扩展为接收多模态嵌入作为输入，使每个输入单元融合了来自文档图像语义区域的文本词元与视觉特征。UDoc的一个关键特性在于，其通过引入三种自监督损失函数，学习通用的表示能力，从而促使模型能够建模句子语义、捕捉语义相似性并实现跨模态对齐。大量实证分析表明，该预训练过程能够学习到更优的联合表示，显著提升下游任务的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

自然语言处理

Jiuxiang Gu Jason Kuen Vlad I. Morariu Handong Zhao Nikolaos Barmpalios Rajiv Jain Ani Nenkova Tong Sun

摘要

文档智能技术能够自动提取文档中的信息，并支持多种业务应用场景。近年来，基于大规模无标注文档数据集的自监督学习方法为降低人工标注成本开辟了极具前景的新方向，通过自监督目标训练模型实现高效学习。然而，目前大多数现有的文档预训练方法仍以语言模态为主导。为此，我们提出了UDoc——一种面向文档理解的新型统一预训练框架。UDoc旨在支持绝大多数文档理解任务，通过将Transformer架构扩展为接收多模态嵌入作为输入，使每个输入单元融合了来自文档图像语义区域的文本词元与视觉特征。UDoc的一个关键特性在于，其通过引入三种自监督损失函数，学习通用的表示能力，从而促使模型能够建模句子语义、捕捉语义相似性并实现跨模态对齐。大量实证分析表明，该预训练过程能够学习到更优的联合表示，显著提升下游任务的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供