HyperAIHyperAI

Command Palette

Search for a command to run...

تروك: التعرف البصري على النصوص القائم على التحويلة مع نماذج مُدرّبة مسبقًا

Minghao Li Tengchao Lv Jingye Chen Lei Cui Yijuan Lu Dinei Florencio Cha Zhang Zhoujun Li Furu Wei

الملخص

تمثّل عملية تمييز النص مشكلة بحثية قديمة في مجال تحويل المستندات إلى صيغ رقمية. وعادةً ما تُبنى النماذج الحالية على أساس الشبكات العصبية التلافيفية (CNN) لفهم الصور، والشبكات العصبية التكرارية (RNN) لإنتاج النص على مستوى الحروف. بالإضافة إلى ذلك، يُعدّ عادةً استخدام نموذج لغوي إضافي لتحسين الدقة الإجمالية كخطوة ما بعد المعالجة. في هذا البحث، نقترح نهجًا متكاملًا لتمييز النص يعتمد على نماذج مُدرّبة مسبقًا من نوع "Transformer" للصور ونموذج "Transformer" للنص، ويُسمّى TrOCR، والذي يستخدم بنية Transformer لفهم الصور وإنشاء النص على مستوى "أجزاء الكلمات" (wordpiece). يتميّز نموذج TrOCR ببساطته وفعاليته، ويمكن تدريبه مسبقًا باستخدام بيانات مُصطنعة ضخمة، ثم تحسينه بدقة باستخدام مجموعات بيانات مُعلّمة يدويًا. تُظهر التجارب أن نموذج TrOCR يتفوّق على النماذج الحالية الأفضل في مجالات تمييز النص المطبوع، والنص المكتوب بخط اليد، والنص في المشاهد. وتم إتاحة نماذج TrOCR والكود المصدري للجمهور عبر الرابط: \url{https://aka.ms/trocr}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تروك: التعرف البصري على النصوص القائم على التحويلة مع نماذج مُدرّبة مسبقًا | مستندات | HyperAI