HyperAIHyperAI
منذ 17 أيام

التعرف على النص المكتوب بيد من خلال التسميات المجمعة من الجمهور

Solène Tarride, Tristan Faine, Mélodie Boillet, Harold Mouchère, Christopher Kermorvant
التعرف على النص المكتوب بيد من خلال التسميات المجمعة من الجمهور
الملخص

في هذه الورقة، نستكشف طرقًا مختلفة لتدريب نموذج للتعرف على النصوص المكتوبة بخط اليد عندما تكون هناك عدة نسخ مُحَوَّلة (مُرَقَّمة) غير دقيقة أو مُتَعَلِّقة بضوضاء. نُقدِّم تقييمًا لتكوينات تدريب مختلفة، مثل اختيار نسخة مُحَوَّلة واحدة، أو الاحتفاظ بجميع النسخ المُحَوَّلة، أو حساب نسخة مُجمَّعة من جميع التحويلات المتاحة. بالإضافة إلى ذلك، نُقيّم تأثير اختيار البيانات بناءً على الجودة، حيث يتم إزالة العينات التي تُظهِر اتفاقًا منخفضًا من مجموعة التدريب. تمت إجراء التجارب على سجلات بلدية مدينة بلفور (فرنسا) المكتوبة بين عامي 1790 و1946. تُظهر النتائج أن حساب نسخة مُتفق عليها أو التدريب على عدة نسخ مُحَوَّلة يُعدّان خيارين جيدين. ومع ذلك، فإن اختيار عينات التدريب بناءً على درجة الاتفاق بين المُرَقِّمين يُؤدّي إلى انحياز في بيانات التدريب ولا يُحسّن الأداء. يُمكن الوصول إلى مجموعة البيانات الخاصة بنا بشكل عام عبر منصة زينودو: https://zenodo.org/record/8041668.