منذ 2 أشهر
DTrOCR: محول فك الرموز فقط للاعتراف البصري بالحروف
Fujitake, Masato

الملخص
تستند الطرق النموذجية لتمييز النص عادةً إلى هيكل مكون من مُشفر (Encoder) ومُفكك (Decoder)، حيث يقوم المُشفر باستخراج الخصائص من الصورة، والمُفكك بإنتاج النص المعترف به من هذه الخصائص. في هذه الدراسة، نقترح طريقة أبسط وأكثر فعالية لتمييز النص تُعرف باسم مُفكك الترانسفورمر فقط لتمييز الحروف البصرية (DTrOCR). تستخدم هذه الطريقة مُفكك الترانسفورمر فقط للحصول على استفادة من نموذج اللغة الجينراتيف الذي تم تدريبه مسبقًا على مجموعة كبيرة من البيانات. قمنا بفحص ما إذا كان يمكن لنماذج اللغة الجينراتيف التي حققت نجاحًا في معالجة اللغات الطبيعية أن تكون فعالة أيضًا في تمييز النص ضمن رؤية الكمبيوتر. أظهرت تجاربنا أن DTrOCR يتفوق بشكل كبير على الأساليب الرائدة حاليًا في تمييز النص المطبوع والخط اليدوي والنص المناظري باللغتين الإنجليزية والصينية.