1 个月前

Mask TextSpotter:一种用于识别任意形状文本的端到端可训练神经网络

Pengyuan Lyu; Minghui Liao; Cong Yao; Wenhao Wu; Xiang Bai
Mask TextSpotter:一种用于识别任意形状文本的端到端可训练神经网络
摘要

近年来,基于深度神经网络的模型在场景文本检测和识别领域占据了主导地位。本文研究了场景文本定位问题,旨在同时在自然图像中实现文本检测和识别。提出了一种端到端可训练的神经网络模型用于场景文本定位。该模型命名为Mask TextSpotter,其灵感来源于最近发布的Mask R-CNN工作。与之前通过端到端可训练的深度神经网络实现文本定位的方法不同,Mask TextSpotter利用了一个简单且平滑的端到端学习过程,在此过程中,通过语义分割获得精确的文本检测和识别。此外,该模型在处理不规则形状的文本实例(例如弯曲文本)方面优于先前的方法。在ICDAR2013、ICDAR2015和Total-Text数据集上的实验表明,所提出的方法在这两个任务——场景文本检测和端到端文本识别中均达到了最先进的结果。

Mask TextSpotter:一种用于识别任意形状文本的端到端可训练神经网络 | 最新论文 | HyperAI超神经