8 个月前

统一多模态

自然语言处理

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

摘要

我们提出了一种通用文档处理（Universal Document Processing, UDOP）的基础文档人工智能模型，该模型将文本、图像和布局模态与多种任务格式统一起来，包括文档理解和生成。UDOP 利用了文本内容与文档图像之间的空间相关性，通过一种统一的表示方法来建模图像、文本和布局模态。借助一种新颖的视觉-文本-布局变换器（Vision-Text-Layout Transformer），UDOP 将预训练和多领域下游任务统一为基于提示的序列生成方案。UDOP 在大规模未标注文档语料库上使用创新的自监督目标进行预训练，并在多样化的标注数据上进行学习。此外，UDOP 还通过掩码图像重建从文本和布局模态中生成文档图像。据我们所知，这是文档人工智能领域首次实现一个模型同时具备高质量的神经网络文档编辑和内容定制功能。我们的方法在金融报告、学术论文和网站等多个数据领域的 8 项文档人工智能任务中达到了最先进的水平，例如文档理解和问答。UDOP 在文档理解基准测试的排行榜上排名第一。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

自然语言处理

Zineng Tang; Ziyi Yang; Guoxin Wang; Yuwei Fang; Yang Liu; Chenguang Zhu; Michael Zeng; Cha Zhang; Mohit Bansal

摘要

我们提出了一种通用文档处理（Universal Document Processing, UDOP）的基础文档人工智能模型，该模型将文本、图像和布局模态与多种任务格式统一起来，包括文档理解和生成。UDOP 利用了文本内容与文档图像之间的空间相关性，通过一种统一的表示方法来建模图像、文本和布局模态。借助一种新颖的视觉-文本-布局变换器（Vision-Text-Layout Transformer），UDOP 将预训练和多领域下游任务统一为基于提示的序列生成方案。UDOP 在大规模未标注文档语料库上使用创新的自监督目标进行预训练，并在多样化的标注数据上进行学习。此外，UDOP 还通过掩码图像重建从文本和布局模态中生成文档图像。据我们所知，这是文档人工智能领域首次实现一个模型同时具备高质量的神经网络文档编辑和内容定制功能。我们的方法在金融报告、学术论文和网站等多个数据领域的 8 项文档人工智能任务中达到了最先进的水平，例如文档理解和问答。UDOP 在文档理解基准测试的排行榜上排名第一。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供