ASTER: مستشعر نص مشهد انتباهي مع تصحيح مرنة
لقد لاقت تقنية التعرف على النص في المشاهد اهتمامًا كبيرًا من قبل الأوساط الأكاديمية والصناعية في السنوات الأخيرة بسبب أهميتها في طيف واسع من التطبيقات. وعلى الرغم من النضج الذي بلغته أنظمة التعرف البصري على النص (OCR) المخصصة لنصوص الوثائق، يظل التعرف على النص في المشاهد مشكلة صعبة. تشكل التغيرات الكبيرة في الخلفية والمظهر والترتيب تحدّيات كبيرة، لا يمكن للطرق التقليدية لـ OCR التعامل معها بشكل فعّال. ويشكل التقدم الحديث في التعرف على النص في المشاهد نتاج نجاح النماذج القائمة على التعلم العميق. ومن بين هذه الأساليب: الأساليب التي تُعرّف النص حرفًا باستخدام الشبكات العصبية التلافيفية (CNN)، والأساليب التي تصنف الكلمات باستخدام الشبكات العصبية التلافيفية [24]، [26]، والأساليب التي تُعرّف تسلسلات الأحرف باستخدام مزيج من الشبكة العصبية التلافيفية والشبكة العصبية التكرارية (RNN) [54]. وعلى الرغم من نجاح هذه الأساليب، فإنها لا تعالج بشكل صريح مشكلة النص غير المنتظم، وهو النص الذي لا يكون أفقيًا ولا أماميًا، بل قد يكون منحنيًا أو مُتعرّجًا، إلخ. وغالبًا ما تظهر أمثلة على النص غير المنتظم في المشاهد الطبيعية. كما يوضح الشكل 1، تشمل الحالات الشائعة نصوصًا مائلة، ونصوصًا منظورية [49]، ونصوصًا منحنية. وبما أن هذه الأساليب السابقة لم تُصمم بالاعتماد على التحفيظ تجاه هذه التغيرات غير المنتظمة، فإنها غالبًا ما تواجه صعوبات في التعرف على مثل هذه الحالات.