2 个月前
使用深度卷积神经网络从街景图像中识别多位数数字
Ian J. Goodfellow; Yaroslav Bulatov; Julian Ibarz; Sacha Arnoud; Vinay Shet

摘要
在无约束的自然照片中识别任意多字符文本是一个难题。本文研究了该领域中的一个同样具有挑战性的子问题,即从街景图像中识别任意多位数字。传统的解决方法通常将定位、分割和识别步骤分开处理。本文提出了一种统一的方法,通过使用深度卷积神经网络直接在图像像素上操作,将这三个步骤整合在一起。我们采用了DistBelief实现的深度神经网络来训练大规模、分布式的神经网络,以处理高质量的图像。我们发现,这种方法的性能随着卷积网络深度的增加而提高,最佳性能出现在我们训练的最深架构中,该架构包含十一层隐藏层。我们在公开可用的SVHN数据集上评估了这一方法,在识别完整的街道号码方面达到了超过96%的准确率。在单个数字识别任务中,我们的准确率达到了97.84%,超过了现有技术水平。此外,我们在一个更具挑战性的数据集上也进行了评估,该数据集由数千万条街道号码注释生成,结果表明我们的方法准确率超过了90%。为了进一步探索所提系统在更广泛的文本识别任务中的适用性,我们将该系统应用于reCAPTCHA生成的合成扭曲文本。reCAPTCHA是一种使用扭曲文本区分人类和机器人的最安全的反图灵测试之一。我们在reCAPTCHA最难的一类任务上报告了99.8%的准确率。对这两个任务的评估结果表明,在特定的操作阈值下,所提系统的性能可以与人类操作员相媲美,在某些情况下甚至超过了人类操作员的表现。