التعرف على النص اليدوي غير المقيد دون تكرار باستخدام شبكة تلافيفية كاملة مزودة بمنفذ

تمثّل القدرة على التعرف على النص المكتوب بخط اليد دون قيود خطوة رئيسية في معظم مهام تحليل المستندات. ويتم معالجة هذه المهمة عادةً باستخدام الشبكات العصبية العميقة ذات التكرار (RNN)، وبشكل خاص من خلال استخدام خلايا الذاكرة طويلة المدى (LSTM). وتشمل العيوب الرئيسية لهذه المكونات العدد الكبير من المعاملات المطلوبة، بالإضافة إلى تنفيذها التسلسلي أثناء التدريب والتنبؤ. إحدى الحلول البديلة لاستخدام خلايا LSTM هي تعويض فقدان الذاكرة الطويلة المدى من خلال الاستفادة الواسعة من الطبقات التلافيفية (Convolutional Layers)، التي يمكن تنفيذ عملياتها بالتوازي، وتتطلب عددًا أقل من المعاملات. في هذه الورقة، نقدّم بنية شبكة مُتحكّمة بالكامل تلافيفية (Gated Fully Convolutional Network) كحل بديل خالٍ من التكرار للهياكل المعروفة مثل CNN+LSTM. تم تدريب نموذجنا باستخدام خسارة CTC، وأظهر نتائج تنافسية على كلا المجموعتين RIMES وIAM. ونُشر كل كود التجريبي لتمكين إعادة إنتاج تجاربنا: https://github.com/FactoDeepLearning/LinePytorchOCR.