منذ 8 أشهر

الملخص

تستند الطرق النموذجية لتمييز النص عادةً إلى هيكل مكون من مُشفر (Encoder) ومُفكك (Decoder)، حيث يقوم المُشفر باستخراج الخصائص من الصورة، والمُفكك بإنتاج النص المعترف به من هذه الخصائص. في هذه الدراسة، نقترح طريقة أبسط وأكثر فعالية لتمييز النص تُعرف باسم مُفكك الترانسفورمر فقط لتمييز الحروف البصرية (DTrOCR). تستخدم هذه الطريقة مُفكك الترانسفورمر فقط للحصول على استفادة من نموذج اللغة الجينراتيف الذي تم تدريبه مسبقًا على مجموعة كبيرة من البيانات. قمنا بفحص ما إذا كان يمكن لنماذج اللغة الجينراتيف التي حققت نجاحًا في معالجة اللغات الطبيعية أن تكون فعالة أيضًا في تمييز النص ضمن رؤية الكمبيوتر. أظهرت تجاربنا أن DTrOCR يتفوق بشكل كبير على الأساليب الرائدة حاليًا في تمييز النص المطبوع والخط اليدوي والنص المناظري باللغتين الإنجليزية والصينية.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار