HyperAIHyperAI
منذ 2 أشهر

HTR-VT: التعرف على النص المكتوب بخط اليد باستخدام محول الرؤية

Li, Yuting ; Chen, Dexiong ; Tang, Tinglong ; Shen, Xi
HTR-VT: التعرف على النص المكتوب بخط اليد باستخدام محول الرؤية
الملخص

نستكشف تطبيق نموذج تحويل الرؤية (Vision Transformer - ViT) في مجال التعرف على النصوص المكتوبة بخط اليد. يشكل عدم توفر بيانات مصنفة بكثرة في هذا المجال تحديًا للحصول على أداء عالي بالاعتماد فقط على ViT. كانت النماذج السابقة المستندة إلى المحول (Transformer) تحتاج إلى بيانات خارجية أو تدريب مكثف على مجموعات بيانات كبيرة لتحقيق التفوق. لمعالجة هذه المشكلة، نقدم طريقة ViT فعالة من حيث البيانات تستخدم فقط محول الكودر (المحول القياسي). وجدنا أن دمج شبكة العصبونات التلافيفية (Convolutional Neural Network - CNN) لاستخراج الخصائص بدلاً من التضمين الأصلي للشظايا (patch embedding)، واستخدام مُحسّن الحد الأدنى الواعي بالحدة (Sharpness-Aware Minimization - SAM) لضمان اتجاه النموذج نحو حدود أقل انخفاضًا، يؤدي إلى تحسينات ملحوظة. بالإضافة إلى ذلك، يعتبر تقنية القناع الإسباني (span mask technique) التي تقوم بتغطية الخصائص المتصلة في خريطة الخصائص كمنظم فعال. بشكل تجريبي، تنافس طريقتنا بشكل إيجابي مع النماذج التقليدية المستندة إلى CNN على مجموعات بيانات صغيرة مثل IAM وREAD2016. كما أنها تحدد معيارًا جديدًا على مجموعة بيانات LAM، وهي حاليًا أكبر مجموعة بيانات تحتوي على 19,830 سطر نص تدريبي. يمكن الوصول إلى الكود بشكل عام من خلال الرابط: https://github.com/YutingLi0606/HTR-VT.请注意,"span mask technique" 直译为 "跨度掩码技术",但根据上下文和阿拉伯语的习惯表达,这里翻译为 "تقنية القناع الإسباني" 可能会显得不准确。建议将其翻译为 "تقنية القناع الإسباني (span mask technique)" 以保留原意并确保信息完整。正确的翻译应该是:"بالإضافة إلى ذلك، تعتبر تقنية القناع الإسباني (span mask technique) التي تقوم بتغطية الخصائص المتصلة في خريطة الخصائص كمنظم فعال."

HTR-VT: التعرف على النص المكتوب بخط اليد باستخدام محول الرؤية | أحدث الأوراق البحثية | HyperAI