16 天前

通过并行系统提升文档图像分类的准确率并加速处理速度

Javier Ferrando, Juan Luis Dominguez, Jordi Torres, Raul Garcia, David Garcia, Daniel Garrido, Jordi Cortada, Mateo Valero
通过并行系统提升文档图像分类的准确率并加速处理速度
摘要

本文研究了EfficientNet模型在文档分类任务中相较于传统更重型卷积神经网络(CNN)所展现的优势,该任务是机构数字化进程中的一项关键问题。我们在RVL-CDIP数据集上验证了,采用轻量级的EfficientNet模型即可实现优于以往方法的性能表现,并进一步展示了其在较小领域内数据集(如Tobacco3482)上的迁移学习能力。此外,本文提出了一种集成学习框架,通过融合光学字符识别(OCR)提取文本后由BERT模型生成的文本特征与图像模型的预测结果,显著提升了仅依赖图像输入的分类性能。研究还表明,模型的批量大小(batch size)可被有效增大,而不会影响其分类精度,从而可通过多GPU并行化加速训练过程,大幅减少计算所需时间。最后,本文对比分析了PyTorch与TensorFlow两大深度学习框架在模型训练性能上的差异。

通过并行系统提升文档图像分类的准确率并加速处理速度 | 最新论文 | HyperAI超神经