HyperAIHyperAI
منذ 2 أشهر

شبكة تجميع البكسل للكشف عن النصوص ذات الأشكال العشوائية بفعالية ودقة

Wenhai Wang; Enze Xie; Xiaoge Song; Yuhang Zang; Wenjia Wang; Tong Lu; Gang Yu; Chunhua Shen
شبكة تجميع البكسل للكشف عن النصوص ذات الأشكال العشوائية بفعالية ودقة
الملخص

كشف النص في المشهد، وهو خطوة مهمة في أنظمة قراءة النصوص في المشاهد، قد شهد تطورًا سريعًا بفضل شبكات العصبونات التلافيفية. ومع ذلك، لا يزال هناك تحديان رئيسيان يعيقان تطبيقه في التطبيقات الحقيقية. أول هذه المشكلات هو التوازن بين السرعة والدقة. أما الثاني فهو نمذجة حالات النص ذات الأشكال العشوائية. مؤخرًا، تم اقتراح بعض الطرق لمعالجة كشف النص ذو الأشكال العشوائية، ولكنها نادراً ما تأخذ سرعة المراحل الكاملة للعملية بعين الاعتبار، مما قد يكون غير كافٍ في التطبيقات العملية.في هذا البحث، نقترح كاشفًا فعالًا ودقيقًا للنصوص ذات الأشكال العشوائية يُسمى شبكة تجميع البكسل (Pixel Aggregation Network - PAN)، والتي تتضمن رأس تصنيف منخفض التكلفة الحسابية ومعالجة ما بعد التعلم. وبشكل أكثر تحديدًا، يتكون الرأس التقسيمي من وحدة تعزيز الهرم المميز (Feature Pyramid Enhancement Module - FPEM) ووحدة دمج المميزات (Feature Fusion Module - FFM). تعمل FPEM كوحدة على شكل حرف U قابلة للتكرار، حيث يمكنها تقديم معلومات متعددة المستويات لتوجيه عملية التقسيم بشكل أفضل. أما FFM فهي تقوم بتجميع المميزات التي توفرها وحدات FPEM المختلفة العمق إلى مميز نهائي للتقسيم. يتم تنفيذ المعالجة ما بعد التعلم بواسطة تجميع البكسل (Pixel Aggregation - PA)، والذي يمكنه جمع بكسلات النص بدقة باستخدام متجهات الشبه المتوقعة.أظهرت التجارب على عدة مقاييس معيارية فائقة الجودة تفوق الشبكة المقترحة PAN. ومن الجدير بالذكر أن طريقتنا يمكن أن تحقق معامل F تنافسي بنسبة 79.9% بمعدل 84.2 إطار في الثانية على مجموعة بيانات CTW1500.

شبكة تجميع البكسل للكشف عن النصوص ذات الأشكال العشوائية بفعالية ودقة | أحدث الأوراق البحثية | HyperAI