HyperAIHyperAI
منذ 2 أشهر

PosFormer: التعرف على التعبيرات الرياضية المكتوبة بخط اليد المعقدة باستخدام متحول غابة المواقع

Guan, Tongkun ; Lin, Chengyu ; Shen, Wei ; Yang, Xiaokang
PosFormer: التعرف على التعبيرات الرياضية المكتوبة بخط اليد المعقدة باستخدام متحول غابة المواقع
الملخص

التعرف على التعبيرات الرياضية المكتوبة بخط اليد (HMER) له تطبيقات واسعة في سيناريوهات التفاعل بين الإنسان والآلة، مثل التعليم الرقمي والمكاتب الآلية. مؤخرًا، تم تبني نماذج مبنية على التسلسل ذات هياكل الترميز-التفكيك بشكل شائع لمعالجة هذه المهمة من خلال التنبؤ مباشرة بسلاسل LaTeX للصور التعبيرية. ومع ذلك، فإن هذه الطرق تتعلم قواعد النحو التي توفرها LaTeX بشكل ضمني فقط، مما قد يفشل في وصف الموقع والعلاقة الهرمية بين الرموز بسبب العلاقات الهيكلية المعقدة وأنماط الكتابة المتنوعة.لتغلب على هذا التحدي، نقترح محول الغابة الموضعية (PosFormer) للتعارف على التعبيرات الرياضية المكتوبة بخط اليد، والذي يقوم بتحسين مهامين معًا: التعرف على التعبير والتعرف على الموقع، لتمكين تعلم تمثيل الخصائص الرمزية الواعية بالموقع بشكل صريح. تحديدًا، نقوم أولاً بتصميم غابة مواقع تُمثّل التعبير الرياضي كهيكل غابة وتُحلل العلاقات المكانية النسبية بين الرموز. دون الحاجة إلى ملاحظات إضافية، يتم تعيين محدد موقع لكل رمز في الغابة للإشارة إلى موقعه الفضائي النسبي.ثانيًا، نقترح وحدة تصحيح الانتباه الضمني لتقاطع انتباه دقيق للتعارف على التعبيرات الرياضية المكتوبة بخط اليد في هياكل فك الشفرة القائمة على السلاسل. أثبتت التجارب الواسعة تفوق PosFormer، حيث حقق أفضل النتائج باستمرار مقارنة بأحدث الأساليب بمعدلات زيادة 2.03٪/1.22٪/2.00٪ و 1.83٪ و 4.62٪ على قواعد البيانات CROHME 2014/2016/2019 ومجموعات البيانات متعددة الأسطر M2E والتعبيرات المعقدة MNE على التوالي، دون أي زيادة في الوقت أو الكلفة الحسابية الإضافية. يمكن الحصول على الكود من الرابط https://github.com/SJTU-DeepVisionLab/PosFormer.

PosFormer: التعرف على التعبيرات الرياضية المكتوبة بخط اليد المعقدة باستخدام متحول غابة المواقع | أحدث الأوراق البحثية | HyperAI