Command Palette
Search for a command to run...
将错误率减半:探究非常深的卷积神经网络和先进的训练策略在文档图像分类中的应用
将错误率减半:探究非常深的卷积神经网络和先进的训练策略在文档图像分类中的应用
Muhammad Zeshan Afzal; Andreas Kölsch; Sheraz Ahmed; Marcus Liwicki
摘要
我们对近期用于文档图像分类任务的深度学习架构、算法和策略进行了全面的研究,最终将错误率降低了一半以上。现有的方法,如DeepDocClassifier,通常应用标准卷积网络架构,并从物体识别领域进行迁移学习。本文的贡献有三个方面:首先,研究了最近引入的非常深的神经网络架构(GoogLeNet、VGG、ResNet)并使用从真实图像中进行的迁移学习;其次,提出从大量文档图像数据集(即400,000份文档)中进行迁移学习;最后,分析了训练数据量(文档图像)和其他参数对分类能力的影响。我们使用了两个数据集:Tobacco-3482和大规模RVL-CDIP数据集。在Tobacco-3482数据集上,我们达到了91.13%的准确率,而早期的方法仅能达到77.6%。因此,实现了超过60%的相对错误率降低。对于大规模数据集RVL-CDIP,我们达到了90.97%的准确率,相当于11.5%的相对错误率降低。