شبكة تجميع البكسل للكشف عن النصوص ذات الأشكال العشوائية بفعالية ودقة

كشف النص في المشهد، وهو خطوة مهمة في أنظمة قراءة النصوص في المشاهد، قد شهد تطورًا سريعًا بفضل شبكات العصبونات التلافيفية. ومع ذلك، لا يزال هناك تحديان رئيسيان يعيقان تطبيقه في التطبيقات الحقيقية. أول هذه المشكلات هو التوازن بين السرعة والدقة. أما الثاني فهو نمذجة حالات النص ذات الأشكال العشوائية. مؤخرًا، تم اقتراح بعض الطرق لمعالجة كشف النص ذو الأشكال العشوائية، ولكنها نادراً ما تأخذ سرعة المراحل الكاملة للعملية بعين الاعتبار، مما قد يكون غير كافٍ في التطبيقات العملية.في هذا البحث، نقترح كاشفًا فعالًا ودقيقًا للنصوص ذات الأشكال العشوائية يُسمى شبكة تجميع البكسل (Pixel Aggregation Network - PAN)، والتي تتضمن رأس تصنيف منخفض التكلفة الحسابية ومعالجة ما بعد التعلم. وبشكل أكثر تحديدًا، يتكون الرأس التقسيمي من وحدة تعزيز الهرم المميز (Feature Pyramid Enhancement Module - FPEM) ووحدة دمج المميزات (Feature Fusion Module - FFM). تعمل FPEM كوحدة على شكل حرف U قابلة للتكرار، حيث يمكنها تقديم معلومات متعددة المستويات لتوجيه عملية التقسيم بشكل أفضل. أما FFM فهي تقوم بتجميع المميزات التي توفرها وحدات FPEM المختلفة العمق إلى مميز نهائي للتقسيم. يتم تنفيذ المعالجة ما بعد التعلم بواسطة تجميع البكسل (Pixel Aggregation - PA)، والذي يمكنه جمع بكسلات النص بدقة باستخدام متجهات الشبه المتوقعة.أظهرت التجارب على عدة مقاييس معيارية فائقة الجودة تفوق الشبكة المقترحة PAN. ومن الجدير بالذكر أن طريقتنا يمكن أن تحقق معامل F تنافسي بنسبة 79.9% بمعدل 84.2 إطار في الثانية على مجموعة بيانات CTW1500.