عرض، الانتباه، والقراءة: أساس بسيط وقوي للاعتراف بالنصوص غير المنتظمة

التعرف على النصوص غير المنتظمة في صور المشاهد الطبيعية يمثل تحديًا بسبب التباين الكبير في مظهر النص، مثل الانحناء والتوجيه والتشوه. تعتمد معظم الطرق الحالية بشكل كبير على تصاميم نماذج معقدة و/أو توضيحات دقيقة إضافية، مما يزيد إلى حد ما من صعوبة تنفيذ الخوارزميات وجمع البيانات. في هذا العمل، نقترح طريقة أساسية قوية وسهلة التنفيذ للتعرف على النصوص غير المنتظمة في المشاهد الطبيعية، باستخدام مكونات شبكة عصبية جاهزة وأيضًا توضيحات على مستوى الكلمات فقط. تتكون هذه الطريقة من شبكة ResNet ذات 31 طبقة، وإطار عمل مرممِّز-مفكِّك (Encoder-Decoder) مستند إلى LSTM، ووحدة انتباه ثنائية الأبعاد (2D Attention Module). رغم بساطتها، فإن الطريقة المقترحة قوية وتحقق أداءً رائدًا في كلا المعيارين: التعرف على النصوص المنتظمة وغير المنتظمة في المشاهد الطبيعية.الشفرة متاحة على الرابط: https://tinyurl.com/ShowAttendRead