8 个月前

自然语言处理

计算机视觉

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

摘要

多模态学习的出现显著提升了文档人工智能的性能。如今，文档被视为包含文本和视觉信息的多模态实体，用于下游分析。然而，这一领域的研究通常侧重于文本方面，将视觉空间作为辅助信息。尽管一些研究探索了基于纯视觉的技术来理解文档图像，但这些方法在推理过程中仍需要OCR识别的文本作为输入，或者在学习过程中未能与文本对齐。因此，我们提出了一种专门设计的新颖图像-文本对齐技术，旨在利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型DoPTA（Document Pre-trained Transformer with Alignment）通过这种技术训练，在多种文档图像理解任务中表现出色，且在推理过程中无需依赖OCR。结合辅助重建目标，DoPTA在使用显著较少的预训练计算资源的情况下，始终优于更大的模型。此外，DoPTA还在两个具有挑战性的文档视觉分析基准D4LA和FUNSD上取得了新的最佳结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

计算机视觉

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

摘要

多模态学习的出现显著提升了文档人工智能的性能。如今，文档被视为包含文本和视觉信息的多模态实体，用于下游分析。然而，这一领域的研究通常侧重于文本方面，将视觉空间作为辅助信息。尽管一些研究探索了基于纯视觉的技术来理解文档图像，但这些方法在推理过程中仍需要OCR识别的文本作为输入，或者在学习过程中未能与文本对齐。因此，我们提出了一种专门设计的新颖图像-文本对齐技术，旨在利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型DoPTA（Document Pre-trained Transformer with Alignment）通过这种技术训练，在多种文档图像理解任务中表现出色，且在推理过程中无需依赖OCR。结合辅助重建目标，DoPTA在使用显著较少的预训练计算资源的情况下，始终优于更大的模型。此外，DoPTA还在两个具有挑战性的文档视觉分析基准D4LA和FUNSD上取得了新的最佳结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供