HyperAIHyperAI
منذ 11 أيام

PGNet: الكشف الفوري عن النص بأشكال عشوائية باستخدام شبكة جمع النقاط

Pengfei Wang, Chengquan Zhang, Fei Qi, Shanshan Liu, Xiaoqiang Zhang, Pengyuan Lyu, Junyu Han, Jingtuo Liu, Errui Ding, Guangming Shi
PGNet: الكشف الفوري عن النص بأشكال عشوائية باستخدام شبكة جمع النقاط
الملخص

تماشَرَ اهتمامٌ متزايدٌ في البحث حول قراءة النصوص ذات الأشكال العشوائية. ومع ذلك، فإن النماذج الحالية للكشف عن النصوص (text spotters) تُبنى في الغالب على إطارين متكاملين أو على طرق تعتمد على الحروف، مما يُعاني من مشكلات مثل قمع الحد الأقصى غير الضروري (NMS)، وعمليات التحديد الإقليمي (RoI)، أو الحاجة إلى تسميات على مستوى الحرف. في هذه الورقة، ولحل هذه المشكلات، نقترح شبكة جمع النقاط الكاملة التلافيفية (PGNet) جديدة تمامًا لقراءة النصوص ذات الأشكال العشوائية في الزمن الفعلي. تُعدّ PGNet نموذجًا كشفًا نصيًا أحادي المرحلة (single-shot)، حيث يتم تعلُّم خريطة تصنيف الحروف على مستوى البكسل باستخدام خسارة PG-CTC المُقترحة، دون الحاجة إلى تسميات على مستوى الحرف. وباستخدام فك ترميز PG-CTC، نقوم بجمع متجهات تصنيف الحروف عالية المستوى من الفضاء ثنائي الأبعاد وفك ترميزها إلى رموز نصية دون الحاجة إلى عمليات NMS أو RoI، مما يضمن كفاءة عالية. علاوةً على ذلك، وبتحليل العلاقات بين كل حرف وحروفه المجاورة، نُقدّم وحدة تحسين رسومية (GRM) لتحسين التعرف الأولي وتعزيز الأداء النهائى للنظام من النهاية إلى النهاية. أثبتت التجارب أن الطريقة المقترحة تحقق دقة تنافسية، وفي الوقت نفسه تحسّن بشكل كبير سرعة التشغيل. وبشكل خاص، فإن الأداء على مجموعة بيانات Total-Text يبلغ 46.7 إطارًا في الثانية (FPS)، متفوّقةً على النماذج السابقة بفارق كبير.

PGNet: الكشف الفوري عن النص بأشكال عشوائية باستخدام شبكة جمع النقاط | أحدث الأوراق البحثية | HyperAI