NAMER: النمذجة غير التنبؤية لتمييز التعبيرات الرياضية المكتوبة بخط اليد

في الآونة الأخيرة، حظيت تقنية التعرف على التعبيرات الرياضية المكتوبة بيد (HMER) باهتمام كبير في مجال التعرف على الأنماط نظرًا لتطبيقاتها المتنوعة في فهم الوثائق. تقترب الطرق الحالية من HMER كمهمة توليد صورة إلى تسلسل داخل إطار مُشفر-مُفكك ذاتي التنظيم (AR). ومع ذلك، تعاني هذه الطرق من عدة عيوب: 1) نقص السياق اللغوي الشامل، مما يحد من استخدام المعلومات خارج خطوة التفكيك الحالية؛ 2) تراكم الأخطاء أثناء عملية التفكيك الذاتي التنظيم (AR)؛ و 3) بطء سرعة التفكيك. لحل هذه المشاكل، يحاول هذا البحث بناء نموذج جديد غير ذاتي التنظيم (Non-AutoRegressive Modeling) للـ HMER لأول مرة، ويُطلق عليه اسم NAMER. يتكون NAMER من مُقطّع رموز مراعٍ للصورة (Visual Aware Tokenizer - VAT) وفاكِّت الرسم البياني المتوازي (Parallel Graph Decoder - PGD). في البداية، يقوم VAT بتقطيع الرموز المرئية والعلاقات المحلية بشكل خشن. ثم يقوم PGD بتحسين جميع الرموز وإنشاء الروابط بالتوازي، مستفيدًا من السياقات البصرية واللغوية الشاملة. أظهرت التجارب على قواعد البيانات CROHME 2014/2016/2019 و HME100K أن NAMER ليس فقط يتفوق على أفضل الطرق الحالية (SOTA) بنسبة 1.93% و 2.35% و 1.49% و 0.62% في معدل النجاح (ExpRate)، بل يحقق أيضًا تسريعات كبيرة بمعدلات زمنية تبلغ 13.7 ضعف وأطر ثانية كاملة تبلغ 6.7 ضعف أسرع، مما يثبت فعالية وكفاءة NAMER.