التعرف على التعبيرات الرياضية المكتوبة بخط اليد من خلال تجميع الانتباه القائم على التعلم المتبادل ثنائي الاتجاه

التعرف على التعبيرات الرياضية المكتوبة بخط اليد يهدف إلى إنشاء تسلسلات LaTeX تلقائيًا من الصور المعطاة. حاليًا، يتم استخدام نماذج المُشفِّر-المُفكِّك القائمة على الانتباه (الاهتمام) بشكل واسع في هذه المهمة. عادةً ما تولد هذه النماذج التسلسلات المستهدفة بطريقة من اليسار إلى اليمين (L2R)، مما يؤدي إلى عدم استغلال السياقات من اليمين إلى اليسار (R2L). في هذا البحث، نقترح شبكة تعلم متبادل ثنائية الاتجاه تعتمد على تجميع الانتباه (Attention aggregation based Bi-directional Mutual learning Network - ABM) والتي تتكون من مُشفِّر مشترك واحد ومحللين معكوسين متوازيين اثنين (من اليسار إلى اليمين ومن اليمين إلى اليسار). يتم تعزيز المحللين الاثنين عبر التقطير المتبادل، الذي يتضمن نقل المعرفة من واحد لواحد في كل خطوة تدريبية، مما يجعل الاستفادة الكاملة من المعلومات التكميلية القادمة من اتجاهين معكوسين. بالإضافة إلى ذلك، للتعامل مع الرموز الرياضية في مقاييس مختلفة، تم اقتراح وحدة تجميع الانتباه (Attention Aggregation Module - AAM) لدمج انتباهاً متعدد المقاييس بكفاءة. يُشار إلى أنه في مرحلة الاستدلال، بالنظر إلى أن النموذج قد تعلم المعرفة من اتجاهين معكوسين، نستخدم فقط الفرع من اليسار إلى اليمين للاستدلال، مع الحفاظ على حجم المعلمات الأصلي وسرعة الاستدلال. أظهرت التجارب الواسعة أن النهج المقترح لدينا حقق دقة التعرف بنسبة 56.85٪ على CROHME 2014، و52.92٪ على CROHME 2016، و53.96٪ على CROHME 2019 دون زيادة البيانات أو الجمع بين النماذج، مما يتفوق بشكل كبير على أفضل الأساليب الحالية. يمكن الحصول على الكود المصدر من https://github.com/XH-B/ABM.