الوعي بالمنطقة الحرفية لاكتشاف النص

طرائق اكتشاف النص في المشهد المستندة إلى الشبكات العصبية ظهرت مؤخرًا وأظهرت نتائجًا واعدة. كانت الطرائق السابقة التي تم تدريبها باستخدام مربعات الحدود الصارمة على مستوى الكلمات تعاني من قيود في تمثيل منطقة النص بأشكال عشوائية. في هذا البحث، نقترح طريقة جديدة لاكتشاف منطقة النص بشكل فعال من خلال استكشاف كل حرف والارتباط بين الحروف. لتجاوز نقص التسميات على مستوى الحرف الفردي، يستغل الإطار المقترح التسميات على مستوى الحرف المقدمة للصور المركبة والتسميات الحقيقية على مستوى الحرف المقدرة للصور الفعلية التي تم الحصول عليها بواسطة النموذج المؤقت المتعلم. لتقدير الارتباط بين الحروف، يتم تدريب الشبكة باستخدام التمثيل الجديد المقترح للارتباط (affinity). أظهرت التجارب الواسعة على ستة مقاييس، بما في ذلك مجموعتي البيانات TotalText و CTW-1500 اللتين تحتويان على نصوص منحنية للغاية في الصور الطبيعية، أن اكتشاف النص على مستوى الحرف لدينا يتفوق بشكل كبير على كاشفات النص الأكثر تقدمًا حاليًا. وفقًا للنتائج، يضمن الإطار المقترح مرنة عالية في اكتشاف صور النص المعقدة في المشهد، مثل النصوص المنحرفة أو المنحنية أو المتغيرة بشكل عشوائي.