HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكتابة اليدوية الكاملة للصفحة من خلال استخراج الصورة إلى التسلسل

Sumeet S. Singh Sergey Karayev

الملخص

نقدّم معمارية نموذج معتمد على الشبكات العصبية للتمييز عن النص المكتوب بخط اليد (HTR) يمكن تدريبه على التعرف على صفحات كاملة من النصوص المكتوبة بخط اليد أو المطبوعة دون الحاجة إلى تقسيم الصورة (Image Segmentation). وبما أن النموذج مبني على معمارية "الصورة إلى التسلسل" (Image to Sequence)، فإنه قادر على استخراج النص الموجود في الصورة ثم ترتيبه بشكل صحيح، دون فرض أي قيود بشأن اتجاه النص، أو تخطيطه، أو حجمه، أو النصوص غير النصية. علاوة على ذلك، يمكن تدريب النموذج على إنتاج علامات مساعدة تتعلق بالتنسيق والتخطيط والمحتوى. ونستخدم قاموسًا على مستوى الحرف، مما يتيح دعم لغات وterminologies مختلفة في أي مجال موضوعي. ويحقق النموذج أداءً جديدًا على مستوى الحالة الحالية (State-of-the-Art) في التعرف على الفقرات على مجموعة بيانات IAM. وعند تقييمه على صور لأسئلة مكتوبة بخط اليد في العالم الحقيقي، والتي تضم خطوطًا منحنية وميلًا، ورسومات، وجداول، ورياضيات، وكيمياء، ورموز أخرى، أظهر أداءً أفضل من جميع واجهات برمجة التطبيقات (APIs) السحابية التجارية المتاحة حاليًا. وقد تم نشر النموذج في بيئة الإنتاج كجزء من تطبيق ويب تجاري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp