إيستر 2.0: تحسين النماذج التلافيفية للتعرف على النص المكتوب بخط اليد

أظهرت الشبكات العصبية التلافيفية (CNN) نتائج واعدة في مهمة التعرف على النصوص المكتوبة بخط اليد (HTR)، لكنها ما زالت تقل عن نماذج الشبكات العصبية التكرارية (RNNs) أو النماذج القائمة على المُحَوِّل (Transformers) من حيث الأداء. في هذا البحث، نقترح معمارية تعتمد على CNN تسد هذه الفجوة. يتكوّن عملنا، Easter2.0، من عدة طبقات من التلافيف ذات البعد الواحد (1D Convolution)، وتقنيات التطبيع الدفعي (Batch Normalization)، ووظيفة التنشيط ReLU، وتقنية التقليل (Dropout)، والاتصالات المتعددة (Dense Residual Connection)، ووحدة التضييق والتحفيز (Squeeze-and-Excitation)، كما يستخدم خسارة تصنيف الزمن المتصل (CTC). بالإضافة إلى المعمارية Easter2.0، نقترح تقنية بسيطة وفعّالة لتعزيز البيانات تُسمى "التركيب والتلف (TACO)"، وهي مناسبة بشكل خاص للمهمات المتعلقة بالتعرف على النصوص المكتوبة بخط اليد (HTR/OCR). حقق عملنا أفضل النتائج المُسجّلة حتى الآن على قاعدة بيانات IAM للكتابة اليدوية عند تدريبه باستخدام فقط بيانات التدريب المتاحة للعامة. في تجاربنا، نقدّم أيضًا تحليلًا لتأثير تعزيزات TACO ووحدة Squeeze-and-Excitation على دقة التعرف على النصوص. كما نُظهر أن Easter2.0 مناسبة للمهام ذات عدد قليل من الأمثلة (few-shot learning) وتتفوّق على أفضل الطرق الحالية، بما في ذلك النماذج القائمة على المُحَوِّل، عند تدريبها على كميات محدودة من البيانات المُعلّمة. يمكن الوصول إلى الكود والنماذج عبر: https://github.com/kartikgill/Easter2