HyperAIHyperAI

Command Palette

Search for a command to run...

通过并行系统提升文档图像分类的准确率并加速处理速度

Javier Ferrando Juan Luis Dominguez Jordi Torres Raul Garcia David Garcia Daniel Garrido Jordi Cortada Mateo Valero

摘要

本文研究了EfficientNet模型在文档分类任务中相较于传统更重型卷积神经网络(CNN)所展现的优势,该任务是机构数字化进程中的一项关键问题。我们在RVL-CDIP数据集上验证了,采用轻量级的EfficientNet模型即可实现优于以往方法的性能表现,并进一步展示了其在较小领域内数据集(如Tobacco3482)上的迁移学习能力。此外,本文提出了一种集成学习框架,通过融合光学字符识别(OCR)提取文本后由BERT模型生成的文本特征与图像模型的预测结果,显著提升了仅依赖图像输入的分类性能。研究还表明,模型的批量大小(batch size)可被有效增大,而不会影响其分类精度,从而可通过多GPU并行化加速训练过程,大幅减少计算所需时间。最后,本文对比分析了PyTorch与TensorFlow两大深度学习框架在模型训练性能上的差异。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供