Mask TextSpotter v3: شبكة اقتراح التجزئة للكشف الموثوق عن النص في المشاهد

أظهرت الطرق القائمة على التدريب من البداية إلى النهاية للكشف عن النص في المشهد، والتي تدمج الكشف والاعتراف، تقدماً كبيراً مؤخراً. ومع ذلك، تستخدم معظم طُرق الكشف عن النص في المشهد ذات الأشكال العشوائية حالياً شبكات اقتراح مناطق (RPN) لإنتاج المقترحات. تعتمد RPN بشكل كبير على مُحاور مصممة يدوياً، وتمثّل مقترحاتها باستخدام مستطيلات محاذاة للمحاور. تُشكّل الأولى صعوبة في التعامل مع حالات النص ذات النسب الطولية المتطرفة أو الأشكال غير المنتظمة، بينما تُعد الثانية مُعرّضة لدمج عدة حالات متقاربة في مقترح واحد، خصوصاً في الحالات التي يكون فيها النص كثيفاً ومُوجهًا بزاوية. ولحل هذه المشكلات، نقترح Mask TextSpotter v3، وهو نظام كشف نص في المشهد يمكن تدريبه من البداية إلى النهاية، يعتمد شبكة اقتراح تجزئة (SPN) بدلاً من RPN. تتميز SPN بكونها خالية من المحاور (anchor-free)، وتُقدّم تمثيلاً دقيقاً للمقترحات ذات الأشكال العشوائية. وبالتالي، فهي تتفوّق على RPN في كشف حالات النص ذات النسب الطولية المتطرفة أو الأشكال غير المنتظمة. علاوة على ذلك، تسمح المقترحات الدقيقة الناتجة عن SPN باستخدام ميزات RoI مُقنّعة (masked RoI features) لفصل الحالات المتقاربة من بعضها. ونتيجة لذلك، يمكن لـ Mask TextSpotter v3 التعامل مع حالات النص ذات النسب الطولية المتطرفة أو الأشكال غير المنتظمة، دون أن تتأثر دقة الاعتراف بالنصوص المجاورة أو بالضوضاء الخلفية. وبشكل محدد، تفوقنا على أحدث الطرق بـ 21.9% على مجموعة بيانات Rotated ICDAR 2013 (القدرة على التحمل أمام التدوير)، وبنسبة 5.9% على مجموعة بيانات Total-Text (القدرة على التحمل أمام الشكل)، وحققنا الأداء الأفضل على مستوى العالم على مجموعة بيانات MSRA-TD500 (القدرة على التحمل أمام النسب الطولية). يمكن الوصول إلى الكود من خلال: https://github.com/MhLiao/MaskTextSpotterV3