الملخص

تحتوي الصور النصية على معلومات بصرية ولغوية معًا. ومع ذلك، تركز التقنيات الحالية لتدريب المسبق في التعرف على النصوص بشكل رئيسي إما على تعلم التمثيل البصري أو على تعلم المعرفة اللغوية. في هذه الورقة، نقترح منهجية جديدة تُسمى MaskOCR تُوحد تدريب المسبق للرؤية واللغة ضمن الإطار الكلاسيكي المُكوَّن من معالج مُشفِّر ومعالج فك ترميز. نستخدم نهج نمذجة الصورة المُغطاة (masked image modeling) لتدريب معالج السمة باستخدام مجموعة كبيرة من الصور النصية الحقيقية غير المُصنفة، مما يمكّننا من تعلم تمثيلات بصرية قوية. على عكس إدخال المعرفة اللغوية من خلال نموذج لغوي إضافي، نقوم بتدريب معالج التسلسل مباشرةً. وبشكل محدد، نحول بيانات النص إلى صور نصية مُصاغة لتوحيد صيغ البيانات بين الرؤية واللغة، ونعزز قدرة معالج التسلسل على نمذجة اللغة باستخدام خطة مُقترحة تُسمى نمذجة الصورة واللغة المُغطاة (masked image-language modeling). ويُعدّ أمر تجميد المعالج المُشفِّر خلال مرحلة تدريب معالج التسلسل أمرًا مُهمًا جدًا. وأظهرت النتائج التجريبية أن المنهجية المقترحة تحقق أداءً متفوّقًا على مجموعات البيانات القياسية، بما في ذلك الصور النصية باللغة الصينية والإنجليزية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MaskOCR: التعرف على النص باستخدام التدريب المُقنَّع لمحاكي المُشفِّر-المُفكِّك

Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MaskOCR: التعرف على النص باستخدام التدريب المُقنَّع لمحاكي المُشفِّر-المُفكِّك

Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MaskOCR: التعرف على النص باستخدام التدريب المُقنَّع لمحاكي المُشفِّر-المُفكِّك

Pengyuan Lyu Chengquan Zhang Shanshan Liu Meina Qiao Yangliu Xu Liang Wu Kun Yao Junyu Han Errui Ding Jingdong Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters