6 个月前

计算机视觉

自然语言处理

自然语言处理

计算机视觉

Deli Yu Xuan Li Chengquan Zhang Junyu Han Jingtuo Liu Errui Ding

摘要

场景文本图像包含两个层次的内容：视觉纹理与语义信息。尽管近年来已有诸多场景文本识别方法取得了显著进展，但针对挖掘语义信息以辅助文本识别的研究仍相对不足，现有工作大多仅探索了类似RNN的结构来隐式建模语义信息。然而，我们观察到基于RNN的方法存在明显缺陷，例如依赖时间顺序的解码方式以及语义上下文的一维串行传播机制，这些限制显著削弱了语义信息的有效性，并制约了计算效率。为缓解上述问题，本文提出一种新颖的端到端可训练框架——语义推理网络（Semantic Reasoning Network, SRN），其中引入全局语义推理模块（Global Semantic Reasoning Module, GSRM），通过多路并行传输机制捕捉全局语义上下文。在7个公开基准数据集上的实验结果表明，该方法在规则文本、不规则文本及非拉丁语系长文本等多种场景下均取得了当前最优性能，充分验证了其有效性与鲁棒性。此外，SRN在推理速度上显著优于基于RNN的方法，展现出在实际应用中的重要价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

自然语言处理

自然语言处理

计算机视觉

Deli Yu Xuan Li Chengquan Zhang Junyu Han Jingtuo Liu Errui Ding

摘要

场景文本图像包含两个层次的内容：视觉纹理与语义信息。尽管近年来已有诸多场景文本识别方法取得了显著进展，但针对挖掘语义信息以辅助文本识别的研究仍相对不足，现有工作大多仅探索了类似RNN的结构来隐式建模语义信息。然而，我们观察到基于RNN的方法存在明显缺陷，例如依赖时间顺序的解码方式以及语义上下文的一维串行传播机制，这些限制显著削弱了语义信息的有效性，并制约了计算效率。为缓解上述问题，本文提出一种新颖的端到端可训练框架——语义推理网络（Semantic Reasoning Network, SRN），其中引入全局语义推理模块（Global Semantic Reasoning Module, GSRM），通过多路并行传输机制捕捉全局语义上下文。在7个公开基准数据集上的实验结果表明，该方法在规则文本、不规则文本及非拉丁语系长文本等多种场景下均取得了当前最优性能，充分验证了其有效性与鲁棒性。此外，SRN在推理速度上显著优于基于RNN的方法，展现出在实际应用中的重要价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于语义推理网络的精准场景文本识别 | 论文 | HyperAI超神经