SPAN: شبكة بسيطة للتنبؤ والمحاذاة للتعرف على الفقرات المكتوبة بخط اليد

تمثّل التعرف على الكتابة اليدوية غير المقيدة مهمة أساسية في تحليل المستندات. وعادة ما تُنفَّذ هذه المهمة في خطوتين: أولاً، يتم تقسيم المستند إلى أسطر نصية؛ ثانياً، يُطبّق نموذج التعرف البصري على الحروف (OCR) على صور هذه الأسطر. نقترح شبكة بسيطة للتنبؤ والمحاذاة (Simple Predict & Align Network): شبكة متعددة التلافيف بالكامل خالية من التكرار، تُنفّذ التعرف البصري على مستوى الفقرة بشكل مباشر دون أي مرحلة تمهيدية للتقسيم. يتميز الإطار البنيوي ببساطته، حيث يشبه الإطار المستخدم للتعرف على الأسطر المنفصلة، ونحقق نتائج تنافسية على ثلاث مجموعات بيانات شهيرة: RIMES وIAM وREAD 2016. لا يتطلب النموذج المقترح أي تكييف للبيانات، ويمكن تدريبه من الصفر دون استخدام تسميات تقسيم، ولا يحتاج إلى تفكيك الأسطر في تسميات النصوص المُخرجة. تتوفر الكود البرمجي وأوزان النموذج المدرب على الرابط التالي: https://github.com/FactoDeepLearning/SPAN.