17 天前

基于梯度的学习在文档识别中的应用

{P. Haffner, Y. Bengio, L. Bottou, Y. LeCun}
摘要

基于反向传播算法训练的多层神经网络,是成功运用梯度学习技术的最佳范例。在采用合适的网络架构的前提下,基于梯度的学习算法能够合成复杂的决策边界,从而以最少的预处理对高维模式(如手写字符)进行有效分类。本文综述了应用于手写字符识别的各种方法,并在标准的手写数字识别任务上对它们进行了比较。结果表明,专为处理二维形状变异问题而设计的卷积神经网络(Convolutional Neural Networks, CNNs)在性能上优于其他所有技术。现实世界中的文档识别系统通常由多个模块组成,包括字段提取、字符分割、识别以及语言建模等。本文提出一种新的学习范式——图变换网络(Graph Transformer Networks, GTN),该方法能够利用基于梯度的优化方法对多模块系统进行全局联合训练,从而最小化整体性能指标。文中介绍了两个用于在线手写识别的系统,实验结果验证了全局训练的优势以及图变换网络的高度灵活性。此外,还描述了一种用于银行支票识别的图变换网络,该系统结合卷积神经网络字符识别器与全局训练技术,在商业和个人支票识别任务中达到了创纪录的准确率。该系统已实现商业化部署,每日可处理数百万张支票。