HyperAIHyperAI
منذ 15 أيام

التعرف على الكتابة اليدوية الكاملة للصفحة من خلال استخراج الصورة إلى التسلسل

Sumeet S. Singh, Sergey Karayev
التعرف على الكتابة اليدوية الكاملة للصفحة من خلال استخراج الصورة إلى التسلسل
الملخص

نقدّم معمارية نموذج معتمد على الشبكات العصبية للتمييز عن النص المكتوب بخط اليد (HTR) يمكن تدريبه على التعرف على صفحات كاملة من النصوص المكتوبة بخط اليد أو المطبوعة دون الحاجة إلى تقسيم الصورة (Image Segmentation). وبما أن النموذج مبني على معمارية "الصورة إلى التسلسل" (Image to Sequence)، فإنه قادر على استخراج النص الموجود في الصورة ثم ترتيبه بشكل صحيح، دون فرض أي قيود بشأن اتجاه النص، أو تخطيطه، أو حجمه، أو النصوص غير النصية. علاوة على ذلك، يمكن تدريب النموذج على إنتاج علامات مساعدة تتعلق بالتنسيق والتخطيط والمحتوى. ونستخدم قاموسًا على مستوى الحرف، مما يتيح دعم لغات وterminologies مختلفة في أي مجال موضوعي. ويحقق النموذج أداءً جديدًا على مستوى الحالة الحالية (State-of-the-Art) في التعرف على الفقرات على مجموعة بيانات IAM. وعند تقييمه على صور لأسئلة مكتوبة بخط اليد في العالم الحقيقي، والتي تضم خطوطًا منحنية وميلًا، ورسومات، وجداول، ورياضيات، وكيمياء، ورموز أخرى، أظهر أداءً أفضل من جميع واجهات برمجة التطبيقات (APIs) السحابية التجارية المتاحة حاليًا. وقد تم نشر النموذج في بيئة الإنتاج كجزء من تطبيق ويب تجاري.

التعرف على الكتابة اليدوية الكاملة للصفحة من خلال استخراج الصورة إلى التسلسل | أحدث الأوراق البحثية | HyperAI