تحسين الدقة وتسريع تصنيف صور المستندات من خلال الأنظمة المتوازية

تُقدّم هذه الورقة دراسة تُظهر فوائد نماذج EfficientNet مقارنةً بالشبكات العصبية التلافيفية (CNNs) الأثقل في مهمة تصنيف المستندات، وهي مشكلة أساسية في عملية ديجيتالization المؤسسات. ونُظهر في مجموعة بيانات RVL-CDIP أنه يمكننا تحسين النتائج السابقة باستخدام نموذج أخف وزنًا، ونُبرز قدرات التعلم المنقول (transfer learning) الخاص بها على مجموعة بيانات أصغر ضمن المجال، مثل Tobacco3482. علاوةً على ذلك، نُقدّم نموذجًا تجميعيًا (ensemble pipeline) قادرًا على تعزيز الإدخال الصوتي فقط من خلال دمج تنبؤات النموذج الصوتي مع التنبؤات الناتجة عن نموذج BERT المُطبّق على النصوص المستخرجة عبر تقنية OCR. كما نُبيّن أن حجم الدفعات (batch size) يمكن زيادة فعّالته دون التأثير على الدقة، مما يسمح بتسريع عملية التدريب من خلال التوازي عبر وحدات معالجة رسومية متعددة (GPUs)، مما يقلل من الوقت الحسابي المطلوب. وأخيرًا، نُظهر الفروقات في أداء التدريب بين إطاري العمل للتعلم العميق PyTorch وTensorFlow.