مكتشف النص ذو الطلقة الواحدة مع الانتباه الإقليمي

نقدم نظامًا جديدًا للكشف عن النصوص في الصور الطبيعية يقوم بإخراج صناديق الحدود على مستوى الكلمات مباشرة. نقترح آلية انتباه تحدد المناطق النصية بشكل تقريبي من خلال خريطة انتباه تُتعلم تلقائيًا. هذا يقلل بشكل كبير من التداخل الخلفي في الميزات الإدراكية، وهو العنصر الأساسي لإنتاج استدلال دقيق للكلمات، خاصة عند الأحجام الصغيرة جدًا. نتيجة لذلك، يتم الحصول على نموذج واحد يعمل بطريقة تقريبية إلى دقيقة (coarse-to-fine). يختلف هذا النموذج عن الكاشفات الحديثة للنصوص المستندة إلى شبكات FCN التي تتضمن سلسلة من نماذج FCN لتحقيق تنبؤ دقيق. بالإضافة إلى ذلك، قمنا بتطوير وحدة انسيبشن هرمية تجمع بكفاءة ميزات الانسيبشن متعددة القياسات. هذا يعزز التفاصيل المحلية ويقوم أيضًا بتشفير معلومات السياق القوية، مما يسمح للكاشف بالعمل بشكل موثوق على النصوص متعددة القياسات والاتجاهات مع صور ذات قياس واحد. حقق كاشف النصوص الخاص بنا معامل F بنسبة 77% على معيار ICDAR 2015، مما يطور أفضل النتائج الموجودة في [18, 28]. يمكن الوصول إلى عرض توضيحي عبر الرابط: http://sstd.whuang.org/.