شبكات الحروف التلافيفية

تم تحقيق تقدم حديث في تطوير إطار موحد للكشف عن النص وتقديره في الصور الطبيعية، إلا أن النماذج المشتركة الحالية اعتمدت في الغالب على هيكل ثنائي المراحل باستخدام عملية تجميع المناطق المحددة (ROI pooling)، ما يؤدي إلى تراجع الأداء في مهمة التقدير. في هذا العمل، نقترح شبكة حروفية متعددة الطبقات، تُعرف باسم CharNet، وهي نموذج من نوع المرحلة الواحدة قادر على معالجة المهمتين معًا في عملية واحدة. تُخرِج CharNet مباشرة صناديق حدودية للكلمات والحروف، مع تسميات حرفية مُرتبطة بها. نعتمد الحرف كعنصر أساسي، مما يمكّننا من التغلب على الصعوبة الرئيسية في النهج الحالية التي حاولت تحسين الكشف عن النص بشكل مشترك مع فرع تقدير مبني على الشبكة العصبية ذات الذاكرة الطويلة (RNN). بالإضافة إلى ذلك، نطور منهجية متكررة للكشف عن الحروف، تُمكّن من نقل قدرة الكشف عن الحروف المكتسبة من بيانات مُصطنعة إلى الصور الواقعية. تؤدي هذه التحسينات التقنية إلى نموذج بسيط وصغير الحجم، لكنه قوي جدًا، ويؤدي بموثوقية في معالجة النصوص ذات الاتجاهات المتعددة والمنحنية. قُمنا بتقييم CharNet على ثلاث معايير قياسية، حيث تفوق بشكل متسق على أحدث النماذج المطورة [25, 24] بفارق كبير، مثل تحسينات بلغت 65.33% إلى 71.08% (مع استخدام قاموس عام) على ICDAR 2015، و54.0% إلى 69.23% على Total-Text، في مهمة التقدير النهائية النهائية للنص. يمكن الوصول إلى الكود من خلال: https://github.com/MalongTech/research-charnet.