HyperAIHyperAI
منذ 2 أشهر

DAN: شبكة انتباه وثائق بدون تقسيم للاعتراف بالوثائق المكتوبة بخط اليد

Coquenet, Denis ; Chatelain, Clément ; Paquet, Thierry
DAN: شبكة انتباه وثائق بدون تقسيم للاعتراف بالوثائق المكتوبة بخط اليد
الملخص

التعرف على النص اليدوي غير المقيد هو مهمة صعبة في مجال رؤية الحاسوب. وقد كان يُعالج تقليديًا باستخدام نهج ذو خطوتين، يجمع بين تقسيم السطور وتعرف النص في السطور. وللمرة الأولى، نقترح هندسة معمارية شاملة وبدون تقسيم للتعامل مع مهمة التعرف على الوثائق اليدوية: شبكة الانتباه للوثائق (Document Attention Network). بالإضافة إلى التعرف على النص، يتم تدريب النموذج لتسمية أجزاء النص باستخدام علامات بداية ونهاية بطريقة مشابهة لـ XML. يتكون هذا النموذج من مُشفِّر FCN لاستخراج الميزات ومكدس من طبقات فك التشفير الخاصة بالمتغير (Transformer) لأداء عملية التنبؤ المتكررة حرفًا حرفًا. يأخذ النموذج مستندات النص الكامل كمدخل ويخرج الأحرف بشكل متتابع، بالإضافة إلى رموز التنسيق المنطقي. بخلاف الأساليب القائمة على التقسيم الموجودة حاليًا، يتم تدريب هذا النموذج بدون استخدام أي علامة تقسيم. نحقق نتائج تنافسية على مجموعة بيانات READ 2016 عند مستوى الصفحة وكذلك عند مستوى الصفحتين بخطأ معدل الأحرف (CER) بنسبة 3.43% و3.70% على التوالي. كما نقدم أيضًا نتائج لمجموعة بيانات RIMES 2009 عند مستوى الصفحة، حيث يصل معدل خطأ الأحرف (CER) إلى 4.54%. نوفر جميع الكود المصدر وأوزان النماذج المدربة مسبقًا في الرابط التالي:https://github.com/FactoDeepLearning/DAN.