STN-OCR: شبكة عصبية واحدة للكشف عن النص وتعرفه

اكتشاف وتعرف النص في صور المشاهد الطبيعية هو مهمة صعبة ومعقدة، ولم يتم حلها بشكل كامل بعد. خلال السنوات الأخيرة، تم اقتراح عدة أنظمة جديدة تحاول حل أحد الجزأين الفرعيين على الأقل (اكتشاف النص وتعرفه). في هذا البحث، نقدم STN-OCR، خطوة نحو الشبكات العصبية شبه المراقبة للاعتراف بالنصوص في المشاهد الطبيعية، والتي يمكن تحسينها من البداية إلى النهاية. بخلاف معظم الأعمال الحالية التي تتكون من عدة شبكات عصبية عميقة وخطوات معالجة سابقة متعددة، نقترح استخدام شبكة عصبية عميقة واحدة تتعلم اكتشاف وتعرف النصوص من الصور الطبيعية بطريقة شبه مراقبة. STN-OCR هي شبكة تدمج وتعلّم بشكل مشترك شبكة محول فضائي (Spatial Transformer Network)، التي يمكنها التعلم لاكتشاف المناطق النصية في الصورة، وشبكة اعتراف بالنصوص التي تأخذ المناطق النصية المحددة وتتعرف على محتواها النصي. ندرس كيف يتعامل نموذجنا مع مجموعة متنوعة من المهام المختلفة (اكتشاف وتعرف الحروف والسطور النصية). تظهر نتائج التجارب على قواعد بيانات الاختبار العامة قدرة نموذجنا على التعامل مع مجموعة متنوعة من المهام المختلفة دون الحاجة إلى تغييرات كبيرة في بنية الشبكة الكلية.