HyperAIHyperAI

Command Palette

Search for a command to run...

具有自动校正功能的鲁棒场景文本识别

Baoguang Shi Xinggang Wang Pengyuan Lyu Cong Yao Xiang Bai*

摘要

识别自然图像中的文本是一项具有许多未解决难题的挑战性任务。与文档中的文字不同,自然图像中的文字通常具有不规则形状,这些形状是由透视畸变、字符弯曲排列等因素造成的。我们提出了RARE(Robust text recognizer with Automatic REctification,具备自动校正功能的鲁棒文本识别器),这是一种对不规则文本具有鲁棒性的识别模型。RARE是一种专门设计的深度神经网络,由空间变换网络(Spatial Transformer Network, STN)和序列识别网络(Sequence Recognition Network, SRN)组成。在测试过程中,首先通过预测的薄板样条(Thin-Plate-Spline, TPS)变换对图像进行校正,使其成为更适合后续SRN处理的“可读”图像,SRN则通过序列识别方法来识别文本。我们展示了该模型能够识别多种类型的不规则文本,包括透视文本和弯曲文本。RARE支持端到端训练,仅需图像及其对应的文本标签即可完成训练,这使得在实际系统中训练和部署该模型变得非常方便。在多个基准数据集上取得的最先进或极具竞争力的表现充分证明了所提出模型的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供