HyperAIHyperAI
منذ 11 أيام

الانتباه الضمني للرمزية الذاتية التدريب لتمييز النص

Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao, Xiaokang Yang, Wei Shen
الانتباه الضمني للرمزية الذاتية التدريب لتمييز النص
الملخص

أصبحت آلية الانتباه (attention mechanism) الوحدة الافتراضية (de facto) في طرق التعرف على النص في المشهد (Scene Text Recognition - STR)، وذلك بفضل قدرتها على استخراج تمثيلات على مستوى الحروف. يمكن تلخيص هذه الطرق إلى نوعين: انتباه ضمني (implicit attention-based) وانتباه مُراقب (supervised attention-based)، وذلك حسب الطريقة التي تُحسب بها آلية الانتباه: حيث يُتعلم الانتباه ضمنيًا من خلال تسميات النص على مستوى التسلسل (sequence-level text annotations)، بينما يُتعلم الانتباه المُراقب من خلال تسميات مربعات حدودية على مستوى الحروف (character-level bounding box annotations). ومع أن الانتباه ضمنيًا قد يُستخرج مناطق فضائية خشنة أو حتى خاطئة كمنطقة انتباه للحروف، فإنه عرضة لمشكلة الانحراف في التوافق (alignment-drifted issue). أما الانتباه المُراقب، فيُخفف من هذه المشكلة، إلا أنه مُخصص حسب فئة الحرف (character category-specific)، مما يتطلب تسميات يدوية مُرهقة على مستوى الحروف، ويُصبح مُستهلكًا للذاكرة عند التعامل مع اللغات التي تضم عددًا أكبر من فئات الحروف. ولحل المشكلات المذكورة أعلاه، نقترح آلية انتباه جديدة لـ STR تُسمى "الانتباه الذاتي-المُراقب للشكل النصي" (Self-supervised Implicit Glyph Attention - SIGA). تعتمد SIGA على تحديد هياكل الأشكال النصية (glyph structures) في الصور النصية من خلال دمج تقنيتي التجزئة النصية الذاتية-المُراقبة (self-supervised text segmentation) ومحاذاة الانتباه ضمنيًا، حيث تُستخدم هذه العمليات كمصدر توجيه (supervision) لتحسين دقة الانتباه دون الحاجة إلى تسميات إضافية على مستوى الحروف. تُظهر النتائج التجريبية أن SIGA تتفوّق بشكل متسق وملحوظ على الطرق السابقة القائمة على الانتباه من حيث دقة الانتباه وأداء التعرف النهائي، على مجموعات بيانات معيارية متوفرة علنًا، وكذلك على مجموعات بيانات جديدة نقدّمها دون سياق (contextless benchmarks).