SAFL: معالج نصي مُشاهدات يعتمد على الانتباه الذاتي مع خسارة مركزية

في العقود الأخيرة، أصبح التعرف على النصوص في المشاهد محط اهتمام عالمي من قبل المجتمع الأكاديمي والمستخدمين الفعليين نظرًا لأهميته في طيف واسع من التطبيقات. وعلى الرغم من التقدم المحرز في تقنيات التعرف البصري على الأحرف، يظل التعرف على النصوص في المشاهد تحديًا كبيرًا بسبب المشكلات الجوهرية مثل التشوهات أو التخطيط غير المنتظم. تعتمد معظم الطرق الحالية بشكل رئيسي على الشبكات العصبية التكرارية أو الشبكات العصبية التلافيفية. ومع ذلك، فإن الشبكات العصبية التكرارية (RNN) تعاني غالبًا من سرعة تدريب بطيئة ناتجة عن الحساب التسلسلي، وتواجه مشكلات مثل تلاشي التدرج (vanishing gradient) أو الحدود (bottleneck)، في حين تواجه الشبكات العصبية التلافيفية (CNN) تنازلًا بين التعقيد والأداء. في هذا البحث، نقدم نموذج SAFL، وهو نموذج شبكة عصبية تعتمد على الانتباه الذاتي (self-attention) مع استخدام دالة الخسارة المركزة (focal loss) للتعرف على النصوص في المشاهد، بهدف التغلب على قيود الطرق الحالية. ويساهم استخدام دالة الخسارة المركزة بدلًا من دالة اللوغاريتم السلبي في تمكين النموذج من التركيز أكثر على العينات منخفضة التكرار أثناء التدريب. علاوة على ذلك، لمعالجة تشوهات النصوص والتخطيط غير المنتظم، نستخدم شبكة المحول المكاني (Spatial Transformer Network - STN) لتصحيح النص قبل إرساله إلى شبكة التعرف. أجرينا تجارب مقارنة أداء النموذج المقترح مع سبعة نماذج معيارية. وأظهرت النتائج العددية أن نموذجنا يحقق أفضل أداء ممكن.