HyperAIHyperAI
منذ 15 أيام

MaskOCR: التعرف على النص باستخدام التدريب المُقنَّع لمحاكي المُشفِّر-المُفكِّك

Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang
MaskOCR: التعرف على النص باستخدام التدريب المُقنَّع لمحاكي المُشفِّر-المُفكِّك
الملخص

تحتوي الصور النصية على معلومات بصرية ولغوية معًا. ومع ذلك، تركز التقنيات الحالية لتدريب المسبق في التعرف على النصوص بشكل رئيسي إما على تعلم التمثيل البصري أو على تعلم المعرفة اللغوية. في هذه الورقة، نقترح منهجية جديدة تُسمى MaskOCR تُوحد تدريب المسبق للرؤية واللغة ضمن الإطار الكلاسيكي المُكوَّن من معالج مُشفِّر ومعالج فك ترميز. نستخدم نهج نمذجة الصورة المُغطاة (masked image modeling) لتدريب معالج السمة باستخدام مجموعة كبيرة من الصور النصية الحقيقية غير المُصنفة، مما يمكّننا من تعلم تمثيلات بصرية قوية. على عكس إدخال المعرفة اللغوية من خلال نموذج لغوي إضافي، نقوم بتدريب معالج التسلسل مباشرةً. وبشكل محدد، نحول بيانات النص إلى صور نصية مُصاغة لتوحيد صيغ البيانات بين الرؤية واللغة، ونعزز قدرة معالج التسلسل على نمذجة اللغة باستخدام خطة مُقترحة تُسمى نمذجة الصورة واللغة المُغطاة (masked image-language modeling). ويُعدّ أمر تجميد المعالج المُشفِّر خلال مرحلة تدريب معالج التسلسل أمرًا مُهمًا جدًا. وأظهرت النتائج التجريبية أن المنهجية المقترحة تحقق أداءً متفوّقًا على مجموعات البيانات القياسية، بما في ذلك الصور النصية باللغة الصينية والإنجليزية.

MaskOCR: التعرف على النص باستخدام التدريب المُقنَّع لمحاكي المُشفِّر-المُفكِّك | أحدث الأوراق البحثية | HyperAI