الكشف عن النصوص المتينة للأشكال باستخدام شبكة التوسع التدريجي للقياسات

لقد شهد اكتشاف النصوص في الصور تقدمًا سريعًا، خاصة مع التطور الحديث للشبكات العصبية التلافيفية. ومع ذلك، لا يزال هناك تحديان يمنعان استخدام الخوارزميات في التطبيقات الصناعية. من ناحية أولى، تتطلب معظم الخوارزميات الرائدة مربعات حدود رباعية الأضلاع (quadrangle bounding box) التي تكون غير دقيقة في تحديد مواقع النصوص ذات الأشكال العشوائية. ومن ناحية ثانية، قد يؤدي وجود نصين قريبين من بعضهما البعض إلى كشف خاطئ يغطي كلاً منهما. تقليديًا، يمكن أن تخفف الطريقة القائمة على التقسيم (segmentation-based approach) المشكلة الأولى ولكنها عادة ما تفشل في حل التحدي الثاني. لحل هذين التحديين، نقترح في هذا البحث شبكة توسع المقياس التدريجي الجديدة (Progressive Scale Expansion Network - PSENet)، والتي يمكنها الكشف بدقة عن حالات النصوص ذات الأشكال العشوائية. بشكل أكثر تحديدًا، تقوم PSENet بإنشاء نواة بمقاييس مختلفة لكل حالة نص، وتوسع تدريجيًا النواة الأقل مقاسًا حتى تصل إلى حالة النص الكاملة الشكل. نظرًا لوجود هوامش هندسية كبيرة بين النوى الأقل مقاسًا، فإن طريقتنا فعالة في تقسيم الحالات النصية القريبة من بعضها البعض، مما يجعل استخدام الطرق القائمة على التقسيم أسهل للكشف عن الحالات النصية ذات الأشكال العشوائية. أجريت التجارب الواسعة على مجموعات البيانات CTW1500 وTotal-Text وICDAR 2015 وICDAR 2017 MLT للتحقق من فعالية PSENet. وبشكل ملحوظ، على مجموعة بيانات CTW1500 التي تحتوي على العديد من النصوص المنحنية الطويلة، حققت PSENet قياس F بمقدار 74.3% بمعدل 27 إطارًا في الثانية (FPS)، وأفضل قياس F لدينا (82.2%) يتفوق على الخوارزميات الرائدة بنسبة 6.6%. سيتم إصدار الكود مستقبلًا.