تروك: التعرف البصري على النصوص القائم على التحويلة مع نماذج مُدرّبة مسبقًا

تمثّل عملية تمييز النص مشكلة بحثية قديمة في مجال تحويل المستندات إلى صيغ رقمية. وعادةً ما تُبنى النماذج الحالية على أساس الشبكات العصبية التلافيفية (CNN) لفهم الصور، والشبكات العصبية التكرارية (RNN) لإنتاج النص على مستوى الحروف. بالإضافة إلى ذلك، يُعدّ عادةً استخدام نموذج لغوي إضافي لتحسين الدقة الإجمالية كخطوة ما بعد المعالجة. في هذا البحث، نقترح نهجًا متكاملًا لتمييز النص يعتمد على نماذج مُدرّبة مسبقًا من نوع "Transformer" للصور ونموذج "Transformer" للنص، ويُسمّى TrOCR، والذي يستخدم بنية Transformer لفهم الصور وإنشاء النص على مستوى "أجزاء الكلمات" (wordpiece). يتميّز نموذج TrOCR ببساطته وفعاليته، ويمكن تدريبه مسبقًا باستخدام بيانات مُصطنعة ضخمة، ثم تحسينه بدقة باستخدام مجموعات بيانات مُعلّمة يدويًا. تُظهر التجارب أن نموذج TrOCR يتفوّق على النماذج الحالية الأفضل في مجالات تمييز النص المطبوع، والنص المكتوب بخط اليد، والنص في المشاهد. وتم إتاحة نماذج TrOCR والكود المصدري للجمهور عبر الرابط: \url{https://aka.ms/trocr}.