HyperAIHyperAI

Command Palette

Search for a command to run...

MaskOCR: التعرف على النص باستخدام التدريب المُقنَّع لمحاكي المُشفِّر-المُفكِّك

Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang

الملخص

تحتوي الصور النصية على معلومات بصرية ولغوية معًا. ومع ذلك، تركز التقنيات الحالية لتدريب المسبق في التعرف على النصوص بشكل رئيسي إما على تعلم التمثيل البصري أو على تعلم المعرفة اللغوية. في هذه الورقة، نقترح منهجية جديدة تُسمى MaskOCR تُوحد تدريب المسبق للرؤية واللغة ضمن الإطار الكلاسيكي المُكوَّن من معالج مُشفِّر ومعالج فك ترميز. نستخدم نهج نمذجة الصورة المُغطاة (masked image modeling) لتدريب معالج السمة باستخدام مجموعة كبيرة من الصور النصية الحقيقية غير المُصنفة، مما يمكّننا من تعلم تمثيلات بصرية قوية. على عكس إدخال المعرفة اللغوية من خلال نموذج لغوي إضافي، نقوم بتدريب معالج التسلسل مباشرةً. وبشكل محدد، نحول بيانات النص إلى صور نصية مُصاغة لتوحيد صيغ البيانات بين الرؤية واللغة، ونعزز قدرة معالج التسلسل على نمذجة اللغة باستخدام خطة مُقترحة تُسمى نمذجة الصورة واللغة المُغطاة (masked image-language modeling). ويُعدّ أمر تجميد المعالج المُشفِّر خلال مرحلة تدريب معالج التسلسل أمرًا مُهمًا جدًا. وأظهرت النتائج التجريبية أن المنهجية المقترحة تحقق أداءً متفوّقًا على مجموعات البيانات القياسية، بما في ذلك الصور النصية باللغة الصينية والإنجليزية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp