SEE: نحو التعرف على النص المكاني من النهاية إلى النهاية شبه المُعلَّم

كشف النصوص وتمييزها في صور المشاهد الطبيعية يُعد مهمة صعبة، رغم أنّها لم تُحلّ بعد بشكل كامل. في السنوات الأخيرة، تم اقتراح عدة أنظمة جديدة تسعى إلى حل واحدة على الأقل من المهمتين الفرعيتين (كشف النصوص وتمييزها). في هذه الورقة، نقدّم SEE، وهي خطوة نحو الشبكات العصبية شبه المُراقبة للكشف عن النصوص في المشاهد وتمييزها، والتي يمكن تحسينها بشكل متكامل (end-to-end). تتألف معظم الدراسات الحالية من شبكة عصبية عميقة متعددة وأطوار ما قبل المعالجة المختلفة. على عكس ذلك، نقترح استخدام شبكة عصبية عميقة واحدة فقط، تتعلم الكشف عن النصوص وتمييزها في الصور الطبيعية بطريقة شبه مُراقبة. يُعد SEE شبكة تدمج وتعلّم بشكل مشترك شبكة محولات فضائية (spatial transformer network) التي تتعلم كشف مناطق النصوص في الصورة، وشبكة تمييز النصوص التي تأخذ مناطق النصوص المحددة وتميّز محتواها النصي. نقدّم الفكرة وراء نهجنا الجديد، ونُظهر إمكانية تطبيقه من خلال إجراء مجموعة من التجارب على مجموعات بيانات معيارية معيارية، حيث حققنا نتائج تنافسية.