منذ 8 أشهر

الملخص

نستكشف تطبيق نموذج تحويل الرؤية (Vision Transformer - ViT) في مجال التعرف على النصوص المكتوبة بخط اليد. يشكل عدم توفر بيانات مصنفة بكثرة في هذا المجال تحديًا للحصول على أداء عالي بالاعتماد فقط على ViT. كانت النماذج السابقة المستندة إلى المحول (Transformer) تحتاج إلى بيانات خارجية أو تدريب مكثف على مجموعات بيانات كبيرة لتحقيق التفوق. لمعالجة هذه المشكلة، نقدم طريقة ViT فعالة من حيث البيانات تستخدم فقط محول الكودر (المحول القياسي). وجدنا أن دمج شبكة العصبونات التلافيفية (Convolutional Neural Network - CNN) لاستخراج الخصائص بدلاً من التضمين الأصلي للشظايا (patch embedding)، واستخدام مُحسّن الحد الأدنى الواعي بالحدة (Sharpness-Aware Minimization - SAM) لضمان اتجاه النموذج نحو حدود أقل انخفاضًا، يؤدي إلى تحسينات ملحوظة. بالإضافة إلى ذلك، يعتبر تقنية القناع الإسباني (span mask technique) التي تقوم بتغطية الخصائص المتصلة في خريطة الخصائص كمنظم فعال. بشكل تجريبي، تنافس طريقتنا بشكل إيجابي مع النماذج التقليدية المستندة إلى CNN على مجموعات بيانات صغيرة مثل IAM وREAD2016. كما أنها تحدد معيارًا جديدًا على مجموعة بيانات LAM، وهي حاليًا أكبر مجموعة بيانات تحتوي على 19,830 سطر نص تدريبي. يمكن الوصول إلى الكود بشكل عام من خلال الرابط: https://github.com/YutingLi0606/HTR-VT.请注意，"span mask technique" 直译为 "跨度掩码技术"，但根据上下文和阿拉伯语的习惯表达，这里翻译为 "تقنية القناع الإسباني" 可能会显得不准确。建议将其翻译为 "تقنية القناع الإسباني (span mask technique)" 以保留原意并确保信息完整。正确的翻译应该是："بالإضافة إلى ذلك، تعتبر تقنية القناع الإسباني (span mask technique) التي تقوم بتغطية الخصائص المتصلة في خريطة الخصائص كمنظم فعال."

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HTR-VT: التعرف على النص المكتوب بخط اليد باستخدام محول الرؤية

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HTR-VT: التعرف على النص المكتوب بخط اليد باستخدام محول الرؤية

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HTR-VT: التعرف على النص المكتوب بخط اليد باستخدام محول الرؤية

Yuting Li Dexiong Chen Tinglong Tang Xi Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters