على التعرف على النصوص ذات الأشكال العشوائية باستخدام الانتباه الذاتي ثنائي الأبعاد

تمثّل مهمة التعرف على النص في المشاهد (STR) مهمة التعرف على تسلسلات الأحرف في المشاهد الطبيعية. وعلى الرغم من التقدّم الكبير الذي أحرزه الأساليب الحالية في مجال STR، تظل الأساليب الحالية تفشل في التعرف على النصوص ذات الأشكال العشوائية، مثل النصوص المُلتوية بشدة أو المُدوّرة، التي تنتشر بكثرة في الحياة اليومية (مثل لوحات المطاعم، أو ملصقات المنتجات، أو الشعارات التجارية). تقدّم هذه الورقة معمارية جديدة للتعرف على النصوص ذات الأشكال العشوائية، تُسمّى شبكة التعرف على النص ذات الانتباه الذاتي (SATRN)، والتي تلهمت من معمارية Transformer. تعتمد SATRN على آلية الانتباه الذاتي لوصف الاعتماديات المكانية ثنائية الأبعاد (2D) للأحرف في صورة نصية من المشهد. وباستغلال عملية الانتشار الشاملة للانتباه الذاتي، تُمكن SATRN من التعرف على النصوص ذات الترتيبات العشوائية والمسافات الكبيرة بين الأحرف. وبذلك، تتفوّق SATRN على النماذج الحالية في STR بمتوسط يبلغ 5.7 نقطة مئوية في معايير "النصوص غير المنتظمة". ونقدّم تحليلات تجريبية تُبيّن الآليات الداخلية للنموذج ونطاق تطبيقه (مثل النصوص المدوّرة والنصوص المتعددة الأسطر). وسنُفصح عن الكود المصدري للنموذج.