HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على النص المكتوب بخط اليد في الفقرات من الطرف إلى الطرف باستخدام شبكة انتباه عمودية

Denis Coquenet Clément Chatelain Thierry Paquet

الملخص

لا يزال التعرف على النص المكتوب بخط اليد دون قيود تحديًا كبيرًا أمام أنظمة رؤية الحاسوب. وعادة ما يتم تحقيق التعرف على النص المكتوب في فقرات من خلال نموذجين: الأول لتقسيم السطور، والثاني للتعرف على السطر النصي. نقترح نموذجًا موحدًا يعتمد على التفاعل المدمج (hybrid attention) لمعالجة هذه المهمة بطريقة نهائية ومتسلسلة. تم تصميم هذا النموذج ليُعالج صورة الفقرة خطوة بخطوة بشكل تكراري. ويمكن تقسيمه إلى ثلاث وحدات. يُولِّد المُشفر (encoder) خرائط ميزات من صورة الفقرة بأكملها. ثم، تقوم وحدة الانتباه بتوليد قناع موزون عموديًا بشكل تكراري، مما يمكّن التركيز على ميزات السطر النصي الحالي. وبهذه الطريقة، يُنفّذ عملية تقسيم غير مباشرة للسطور. أما بالنسبة لبيانات كل سطر نصي، فإن وحدة فك التشفير (decoder) تقوم بالتعرف على التسلسل الحرفية المرتبطة به، ما يؤدي إلى التعرف على الفقرة بأكملها. وحققنا أفضل أداء ممكن من حيث معدل الخطأ الحرفية على مستوى الفقرة في ثلاث مجموعات بيانات شهيرة: 1.91% على RIMES، و4.45% على IAM، و3.59% على READ 2016. يتوفر الكود والمُعلمات المدربة للنموذج على الرابط التالي: https://github.com/FactoDeepLearning/VerticalAttentionOCR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp