I3CL: التعلم التعاوني الداخلي والخارجي للحالات في كشف النص المُكوَّن في المشاهد ذات الأشكال العشوائية

تواجه الطرق الحالية للكشف عن النصوص ذات الأشكال العشوائية في المشاهد الطبيعية مشكلتين بالغتين، وهما: 1) الكشف المُتقطع عند الفجوات داخل نموذج نصي معين؛ و2) الكشف غير الدقيق للنصوص ذات الأشكال العشوائية في سياقات خلفية متنوعة. ولحل هاتين المشكلتين، نقترح طريقة جديدة تُسمى التعلم التعاوني بين النماذج والداخلية للنموذج (I3CL). وبشكل خاص، لمعالجة المشكلة الأولى، نصمم وحدة تلافيفية فعّالة ذات مجالات استقبال متعددة، والتي تتيح التعلم التعاوني لتمثيلات مميزة للحروف والفجوات على المستويات المحلية والبعيدة داخل نموذج نصي واحد. أما لمعالجة المشكلة الثانية، فنُصمم وحدة تحويلية قائمة على النموذج لاستغلال الاعتماديات بين النماذج المختلفة، ووحدة سياق عالمي لاستغلال السياق الدلالي من الخلفية المشتركة، حيث تتيح هاتان الوحدتان التعلم التعاوني لتمثيلات مميزة أكثر للنصوص. وبهذه الطريقة، يمكن لـ I3CL استغلال الاعتماديات الداخلية والخارجية بين النماذج معًا ضمن إطار موحد قابل للتدريب بالكامل من البداية إلى النهاية. علاوةً على ذلك، ولاستغلال أقصى قدر من البيانات غير المُعلمة، نصمم طريقة فعّالة للتعلم شبه المُراقبة لاستخدام التسميات الوهمية عبر استراتيجية تجميعية. وبلا اعتماد على تقنيات إضافية مُضافة، تُظهر النتائج التجريبية أن الطريقة المقترحة I3CL تحقق نتائج جديدة في الصدارة على ثلاث معايير عامة صعبة، وهي: قياس F بنسبة 77.5% على ICDAR2019-ArT، و86.9% على Total-Text، و86.4% على CTW-1500. وبشكل ملحوظ، حصلت طريقة I3CL باستخدام هيكل ResNeSt-101 على المرتبة الأولى في قائمة التصنيف الخاصة بـ ICDAR2019-ArT. وسيكون الشفرة المصدرية متاحة على الرابط: https://github.com/ViTAE-Transformer/ViTAE-Transformer-Scene-Text-Detection.