6 个月前

多模态表征

计算机视觉

Byeonghu Na Yoonsik Kim Sungrae Park

摘要

语言学知识通过为字符序列提供语义信息，在场景文本识别任务中带来了显著收益。然而，由于以往方法仅将语言学知识独立应用于输出序列，未能充分利用语义信息来理解视觉线索，从而限制了其在文本识别中的潜力。本文提出一种新型方法——多模态文本识别网络（Multi-modAl Text Recognition Network, MATRN），通过促进视觉与语义特征之间的交互，显著提升识别性能。具体而言，MATRN识别视觉与语义特征的对应关系，并将空间信息编码至语义特征中。基于该空间编码，模型通过参考另一模态的相关特征，对视觉与语义特征进行增强。此外，MATRN在训练阶段通过隐藏与字符相关的视觉线索，主动引导语义特征融入视觉特征，从而强化语义引导的视觉理解能力。实验结果表明，MATRN在七个基准数据集上均取得显著优于现有方法的性能，大幅领先于简单融合双模态信息的基线方法。消融实验进一步验证了所提组件的有效性。项目代码已开源，地址为：https://github.com/wp03052/MATRN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Byeonghu Na Yoonsik Kim Sungrae Park

摘要

语言学知识通过为字符序列提供语义信息，在场景文本识别任务中带来了显著收益。然而，由于以往方法仅将语言学知识独立应用于输出序列，未能充分利用语义信息来理解视觉线索，从而限制了其在文本识别中的潜力。本文提出一种新型方法——多模态文本识别网络（Multi-modAl Text Recognition Network, MATRN），通过促进视觉与语义特征之间的交互，显著提升识别性能。具体而言，MATRN识别视觉与语义特征的对应关系，并将空间信息编码至语义特征中。基于该空间编码，模型通过参考另一模态的相关特征，对视觉与语义特征进行增强。此外，MATRN在训练阶段通过隐藏与字符相关的视觉线索，主动引导语义特征融入视觉特征，从而强化语义引导的视觉理解能力。实验结果表明，MATRN在七个基准数据集上均取得显著优于现有方法的性能，大幅领先于简单融合双模态信息的基线方法。消融实验进一步验证了所提组件的有效性。项目代码已开源，地址为：https://github.com/wp03052/MATRN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供