HyperAIHyperAI

Command Palette

Search for a command to run...

DTrOCR: محول فك الرموز فقط للاعتراف البصري بالحروف

Fujitake Masato

الملخص

تستند الطرق النموذجية لتمييز النص عادةً إلى هيكل مكون من مُشفر (Encoder) ومُفكك (Decoder)، حيث يقوم المُشفر باستخراج الخصائص من الصورة، والمُفكك بإنتاج النص المعترف به من هذه الخصائص. في هذه الدراسة، نقترح طريقة أبسط وأكثر فعالية لتمييز النص تُعرف باسم مُفكك الترانسفورمر فقط لتمييز الحروف البصرية (DTrOCR). تستخدم هذه الطريقة مُفكك الترانسفورمر فقط للحصول على استفادة من نموذج اللغة الجينراتيف الذي تم تدريبه مسبقًا على مجموعة كبيرة من البيانات. قمنا بفحص ما إذا كان يمكن لنماذج اللغة الجينراتيف التي حققت نجاحًا في معالجة اللغات الطبيعية أن تكون فعالة أيضًا في تمييز النص ضمن رؤية الكمبيوتر. أظهرت تجاربنا أن DTrOCR يتفوق بشكل كبير على الأساليب الرائدة حاليًا في تمييز النص المطبوع والخط اليدوي والنص المناظري باللغتين الإنجليزية والصينية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp