التعرف على التعبيرات الرياضية المكتوبة بخط اليد باستخدام المتحول المدرب ثنائياً

حققت نماذج المُشفر-المُفكك (Encoder-decoder) تقدماً كبيراً في مجال التعرف على التعبيرات الرياضية المكتوبة بخط اليد مؤخراً. ومع ذلك، لا تزال الأساليب الحالية تواجه تحدياً في تخصيص الانتباه بدقة إلى خصائص الصور. بالإضافة إلى ذلك، فإن معظم نماذج المُشفر-المُفكك تعتمد على نماذج مبنية على الشبكات العصبية المتكررة (RNN) في جزء المُفكك، مما يجعلها غير فعالة في معالجة سلاسل $\LaTeX{}$ الطويلة. في هذا البحث، تم استخدام مُفكك مبني على نموذج الترانسفورمر (Transformer) لاستبدال النماذج المستندة إلى الشبكات العصبية المتكررة (RNN)، مما يجعل بنية النموذج الكاملة بسيطة للغاية. علاوة على ذلك، تم تقديم استراتيجية تدريب جديدة تستغل بشكل كامل إمكانات الترانسفورمر في نمذجة اللغة ثنائية الاتجاه. بالمقارنة مع عدة أساليب لا تستخدم زيادة البيانات (Data Augmentation)، أظهرت التجارب أن نموذجنا يحسن معدل التعبير (ExpRate) للأساليب الرائدة حاليًا على مجموعة بيانات CROHME 2014 بنسبة 2.23%. وبالمثل، على مجموعتي بيانات CROHME 2016 وCROHME 2019، نحن نحسن معدل التعبير بنسبة 1.92% و2.28% على التوالي.