HyperAIHyperAI
منذ 2 أشهر

تقييم نماذج التحويل من تسلسل إلى تسلسل للاعتراف بالنصوص المكتوبة بخط اليد

Johannes Michael; Roger Labahn; Tobias Grüning; Jochen Zöllner
تقييم نماذج التحويل من تسلسل إلى تسلسل للاعتراف بالنصوص المكتوبة بخط اليد
الملخص

قد أصبحت نماذج المُشفر-المُفكك (Encoder-decoder) طريقة فعالة للمهام المتعلقة بتعلم التسلسلات مثل الترجمة الآلية ووصف الصور وتعرف النطق، ولكنها لم تظهر نتائج تنافسية حتى الآن في مجال التعرف على النصوص المكتوبة باليد. بهدف تحقيق هذا، نقترح نموذج تسلسل إلى تسلسل يعتمد على الانتباه (attention-based sequence-to-sequence model). يجمع هذا النموذج بين شبكة عصبية تقنية الإدراك الشامل (Convolutional Neural Network) كمستخرج عام للميزات وشبكة عصبية متكررة لترميز المعلومات البصرية بالإضافة إلى السياق الزمني بين الحروف في الصورة المدخلة، ويستخدم شبكة عصبية متكررة منفصلة لفك شفرة التسلسل الفعلي للحروف. نقوم بإجراء مقارنات تجريبية بين آليات مختلفة للانتباه والترميز الموضعي (positional encodings) للعثور على تماثل مناسب بين التسلسل المدخل والتسلسل المخرج. يمكن تدريب النموذج بطريقة شاملة من البداية إلى النهاية (end-to-end)، ويسمح دمج الخسارة الهجينة الاختياري للمساحف بتخزين إخراج قابل للتفسير والاستخدام إذا رغبت في ذلك. نحقق نتائج تنافسية على مجموعتي بيانات IAM وICFHR2016 READ مقارنة بأحدث التقنيات دون استخدام نموذج لغوي، ونحسن بشكل كبير على أي منهجيات حديثة للتسلسل إلى التسلسل.

تقييم نماذج التحويل من تسلسل إلى تسلسل للاعتراف بالنصوص المكتوبة بخط اليد | أحدث الأوراق البحثية | HyperAI