اكتشاف النص في المشهد باستخدام شبكة السياق الهرمية المراقبة

في السنوات الأخيرة، حققت طرق اكتشاف النص في الصور الطبيعية المستندة إلى التعلم العميق نتائج ملحوظة. ومع ذلك، بسبب التنوع والتعقيد العاليين للمناظر الطبيعية، قد تنتج الطرق السابقة الرائدة في مجال اكتشاف النص نسبة كبيرة من الإشارات الخاطئة عند تطبيقها على الصور الملتقطة في بيئات العالم الحقيقي. لمعالجة هذه المشكلة، مستوحاة بشكل أساسي من Mask R-CNN، نقترح في هذا البحث نموذجاً فعالاً لاكتشاف النص في الصور الطبيعية، يستند إلى شبكة الهرم المميزة (Feature Pyramid Network - FPN) وتقسيم الحالات (instance segmentation). نقترح شبكة سياق الهرم المراقبة (Supervised Pyramid Context Network - SPCNET) لتحديد مواقع المناطق النصية بدقة مع كبح الإشارات الخاطئة. بفضل إرشاد المعلومات الدلالية ومشاركة FPN، تحصل SPCNET على أداء محسن بشكل كبير مع إدخال حسابات إضافية هامشية. تظهر التجارب على قواعد البيانات القياسية أن SPCNET تتفوق بوضوح على الأساليب الرائدة. وبشكل خاص، فإنها تحقق معامل F بنسبة 92.1% على ICDAR2013، 87.2% على ICDAR2015، 74.1% على ICDAR2017 MLT و82.9% على Total-Text.