6 个月前

计算机视觉

计算机视觉

Junyeop Lee Sungrae Park Jeonghun Baek Seong Joon Oh Seonghyeon Kim Hwalsuk Lee

摘要

场景文本识别（Scene Text Recognition, STR）是指在自然场景图像中识别字符序列的任务。尽管近年来STR方法取得了显著进展，但现有方法在识别任意形状文本方面仍存在局限，例如高度弯曲或旋转的文本，而这类文本在日常生活中极为常见（如餐馆招牌、产品标签、公司标识等）。本文提出一种新型网络架构——自注意力场景文本识别网络（Self-Attention Text Recognition Network, SATRN），该模型受Transformer架构启发，利用自注意力机制建模场景图像中字符之间的二维（2D）空间依赖关系。通过充分发挥自注意力机制的全局信息传播能力，SATRN能够有效识别具有任意排列方式及大字符间距的文本。实验结果表明，SATRN在“不规则文本”基准测试上平均性能超越现有STR模型达5.7个百分点（pp）。本文还提供了详尽的实证分析，揭示了模型内部工作机制及其适用范围（如旋转文本、多行文本等）。相关代码将开源发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Junyeop Lee Sungrae Park Jeonghun Baek Seong Joon Oh Seonghyeon Kim Hwalsuk Lee

摘要

场景文本识别（Scene Text Recognition, STR）是指在自然场景图像中识别字符序列的任务。尽管近年来STR方法取得了显著进展，但现有方法在识别任意形状文本方面仍存在局限，例如高度弯曲或旋转的文本，而这类文本在日常生活中极为常见（如餐馆招牌、产品标签、公司标识等）。本文提出一种新型网络架构——自注意力场景文本识别网络（Self-Attention Text Recognition Network, SATRN），该模型受Transformer架构启发，利用自注意力机制建模场景图像中字符之间的二维（2D）空间依赖关系。通过充分发挥自注意力机制的全局信息传播能力，SATRN能够有效识别具有任意排列方式及大字符间距的文本。实验结果表明，SATRN在“不规则文本”基准测试上平均性能超越现有STR模型达5.7个百分点（pp）。本文还提供了详尽的实证分析，揭示了模型内部工作机制及其适用范围（如旋转文本、多行文本等）。相关代码将开源发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供