HyperAIHyperAI
منذ 2 أشهر

ما الخطأ في مقارنات نماذج التعرف على النصوص في المشاهد؟ تحليل المجموعة والنموذج

Baek, Jeonghun ; Kim, Geewook ; Lee, Junyeop ; Park, Sungrae ; Han, Dongyoon ; Yun, Sangdoo ; Oh, Seong Joon ; Lee, Hwalsuk
ما الخطأ في مقارنات نماذج التعرف على النصوص في المشاهد؟ تحليل المجموعة والنموذج
الملخص

تم تقديم العديد من الاقتراحات الجديدة لنموذج التعرف على النصوص في المشاهد (Scene Text Recognition - STR) في السنوات الأخيرة. رغم أن كل نموذج يدعي أنه قد دفع حدود التقنية إلى الأمام، إلا أن المقارنات الشاملة والعادلة كانت شحيحة في هذا المجال بسبب اختيارات غير متسقة لمجموعات البيانات المستخدمة في التدريب والتقييم. تهدف هذه الورقة البحثية إلى معالجة هذه الصعوبة من خلال ثلاثة إسهامات رئيسية. أولاً، نقوم بفحص الاختلافات في مجموعات البيانات المستخدمة للتدريب والتقييم، وكيف تؤدي هذه الاختلافات إلى فجوات في الأداء. ثانياً، نقدم إطارًا موحدًا لـ STR يتكون من أربع مراحل يمكن أن تندرج تحته معظم النماذج الحالية لـ STR. استخدام هذا الإطار يسمح بتقييم شامل للمodules المقترحة سابقًا واكتشاف تركيبات جديدة لمodules لم يتم استكشافها من قبل. ثالثاً، نقوم بتحليل المساهمة الفردية لكل module في الأداء من حيث الدقة والسرعة والطلب على الذاكرة، باستخدام مجموعة واحدة ومتسقة من مجموعات البيانات للتدريب والتقييم.这样的分析有助于消除当前比较中的障碍,以便更好地理解现有模块的性能提升。注:为了保持专业性和准确性,部分术语在首次出现时保留了英文原词并加了括号。例如:“Scene Text Recognition (STR)”、“module”等。在后续使用中,这些术语将直接使用阿拉伯语翻译。

ما الخطأ في مقارنات نماذج التعرف على النصوص في المشاهد؟ تحليل المجموعة والنموذج | أحدث الأوراق البحثية | HyperAI