HyperAIHyperAI
منذ 16 أيام

دراسة تجريبية لقانون التوسع في معالجة النص البصري

Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han
دراسة تجريبية لقانون التوسع في معالجة النص البصري
الملخص

تم دراسة قوانين حجم النموذج، وحجم البيانات، والحساب، وأداء النموذج بشكل واسع في مجال معالجة اللغة الطبيعية (NLP). ومع ذلك، لم تُجرَ دراسة قوانين التوسع في مجال التعرف على الحروف البصرية (OCR) بعد. ولحل هذه الفجوة، أجرينا دراسات شاملة تضمنت تحليل العلاقة بين الأداء وحجم النموذج، وحجم البيانات التدريبية، والحساب، في مجال التعرف على النصوص. وخلصنا إلى أن هناك قوانين قوة سلسة بين الأداء وحجم النموذج، وكذلك حجم بيانات التدريب، عندما تُحتفظ بالعوامل المؤثرة الأخرى ثابتة. بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات كبيرة تُدعى REBU-Syn، وتشمل 6 ملايين عينة حقيقية و18 مليون عينة مُصطنعة. وباستخدام قوانين التوسع التي توصلنا إليها ومجموعة البيانات الجديدة، نجحنا في تدريب نموذج للتعرف على النصوص في المشاهد، وحقق أداءً جديدًا على مستوى العالم في 6 معايير اختبار شائعة، بتحقيق دقة متوسطة بلغت 97.42% في المرتبة الأولى. يُتاح النموذج وبيانات التدريب للجمهور عبر الرابط: https://github.com/large-ocr-model/large-ocr-model.github.io.

دراسة تجريبية لقانون التوسع في معالجة النص البصري | أحدث الأوراق البحثية | HyperAI