إعادة التفكير في نماذج تمييز سطور النص

في هذه الورقة، ندرس مشكلة تمييز سطور النص. على عكس معظم المناهج التي تستهدف مجالات محددة مثل نصوص المشاهد أو المستندات المكتوبة بخط اليد، نستكشف المشكلة العامة لتطوير بنية عامة قادرة على استخراج النص من أي صورة، بغض النظر عن مصدرها أو نوع الوسيلة المدخلة. نأخذ بعين الاعتبار عائلتين من المشفرات (Connectionist Temporal Classification و Transformer) وثلاثة وحدات من المشفرات (LSTMs ثنائية الاتجاه، والانتباه الذاتي، وGRCLs)، ونُجري تجارب واسعة لمقارنة دقتها وأدائها على مجموعات بيانات عامة شائعة الاستخدام في مجالات النصوص المشاهدية والنصوص المكتوبة بخط اليد. ونجد أن مزيجًا لم يلقِ اهتمامًا كبيرًا حتى الآن في الأدبيات، وهو استخدام مشفر انتباه ذاتي مع مشفر CTC، عندما يُدمج مع نموذج لغوي خارجي ويُدرّس على بيانات عامة وبيانات داخلية معًا، يتفوق على جميع النماذج الأخرى من حيث الدقة وتعقيد الحسابات. على عكس النماذج القائمة على Transformer الشائعة، يمكن لهذا الهيكل التعامل مع المدخلات ذات الطول العشوائي، وهو شرط ضروري لتمييز السطور بشكل عام. وباستخدام مجموعة بيانات داخلية جمعت من مصادر متعددة، نُظهر أيضًا القيود الحالية لمجموعات البيانات العامة في تقييم دقة نماذج تمييز السطور، حيث إن توزيعات عرض الصورة وطول التسلسل النصي المحدودة نسبيًا لا تسمح برؤية تدهور الجودة في نهج Transformer عند تطبيقه على ترجمة السطور الطويلة.