لا تضف مسافات إضافية: التعرف على الكتابة اليدوية بفعالية باستخدام الشبكات العصبية

التعرف على الكتابة اليدوية العصبية (NHR) هو التعرف على النصوص المكتوبة بخط اليد باستخدام نماذج التعلم العميق، مثل شبكات العصبونات المتكررة ذاكرة طويلة قصيرة متعددة الأبعاد (MDLSTM). حققت النماذج التي تحتوي على طبقات MDLSTM نتائجًا رائدة في مهام التعرف على النصوص المكتوبة بخط اليد. بينما تتميز الطبقات متعددة الاتجاهات من MDLSTM بقدرة غير مسبوقة على التقاط السياق الكامل في جميع الاتجاهات، فإن هذه القوة تحد من إمكانات التوازي، وبالتالي تكون بمكلفة حسابية عالية. في هذا العمل، نطور طرقًا لإنشاء نماذج قائمة على MDLSTM كفؤة للترميز العصبي للكتابة اليدوية (NHR)، وبشكل خاص طريقة تستهدف القضاء على الهدر الحاسوبي الناجم عن التعديل (padding). يُطلق على هذه الطريقة المقترحة اسم "حزم الأمثلة" (example-packing)، حيث تقوم بتعويض تجميع الأمثلة المعدلة بشكل ضائع بتوزيع فعال في شبكة ثنائية الأبعاد. بالنسبة لـ NHR القائم على الكلمات، فإن هذا يؤدي إلى تحسين سرعة بمقدار 6.6 مرة مقارنة بأساس كفء بالفعل يتضمن تعديلًا أدنى لكل دفعة بشكل منفصل. بالنسبة لـ NHR القائم على السطور، تكون توفيرات الحساب أقل ولكنها لا تزال مهمة. بالإضافة إلى حزم الأمثلة، نقترح: 1) تقنية لتحسين التوازي في إطار عمل تعريف الرسم البياني الديناميكي الذي يشمل PyTorch، باستخدام التحويلات ذات المجموعات (convolutions with grouping)، 2) طريقة للتوازي عبر وحدات معالجة الرسومات (GPUs) للأمثلة ذات الدفعات المتغيرة الطول. تم اختبار جميع تقنياتنا بدقة على إعادة تنفيذنا الخاصة لنماذج NHR القائمة على MDLSTM باستخدام PyTorch. أظهرت تقييم شامل باستخدام مجموعة بيانات IAM أن نماذجنا تعمل بشكل مشابه للتنفيذ السابق للنماذج الرائدة. يقدم نموذج NHR الكفء لدينا والتقنيات القابلة لإعادة الاستخدام التي تم مناقشتها معه طرقًا لتحقيق نماذج نسبيًا كفءة للمشهد الشائع للأدخال المتغيرة الطول في التعلم العميق.