التعرف على النص المكتوب بخط اليد في الفقرات من الطرف إلى الطرف باستخدام شبكة انتباه عمودية

لا يزال التعرف على النص المكتوب بخط اليد دون قيود تحديًا كبيرًا أمام أنظمة رؤية الحاسوب. وعادة ما يتم تحقيق التعرف على النص المكتوب في فقرات من خلال نموذجين: الأول لتقسيم السطور، والثاني للتعرف على السطر النصي. نقترح نموذجًا موحدًا يعتمد على التفاعل المدمج (hybrid attention) لمعالجة هذه المهمة بطريقة نهائية ومتسلسلة. تم تصميم هذا النموذج ليُعالج صورة الفقرة خطوة بخطوة بشكل تكراري. ويمكن تقسيمه إلى ثلاث وحدات. يُولِّد المُشفر (encoder) خرائط ميزات من صورة الفقرة بأكملها. ثم، تقوم وحدة الانتباه بتوليد قناع موزون عموديًا بشكل تكراري، مما يمكّن التركيز على ميزات السطر النصي الحالي. وبهذه الطريقة، يُنفّذ عملية تقسيم غير مباشرة للسطور. أما بالنسبة لبيانات كل سطر نصي، فإن وحدة فك التشفير (decoder) تقوم بالتعرف على التسلسل الحرفية المرتبطة به، ما يؤدي إلى التعرف على الفقرة بأكملها. وحققنا أفضل أداء ممكن من حيث معدل الخطأ الحرفية على مستوى الفقرة في ثلاث مجموعات بيانات شهيرة: 1.91% على RIMES، و4.45% على IAM، و3.59% على READ 2016. يتوفر الكود والمُعلمات المدربة للنموذج على الرابط التالي: https://github.com/FactoDeepLearning/VerticalAttentionOCR.