HyperAIHyperAI
منذ 8 أيام

مANGO: مُرشِّح نصّي مُتعدّد المشاهد ذات مرحلة واحدة مُوجَّه بالانتباه التبقيتي

Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu, Fei Wu
مANGO: مُرشِّح نصّي مُتعدّد المشاهد ذات مرحلة واحدة مُوجَّه بالانتباه التبقيتي
الملخص

في الآونة الأخيرة، أصبح التعرف على النص في المشهد من النهاية إلى النهاية موضوعًا بحثيًا شائعًا بفضل ميزاته في التحسين الشامل والصيانة العالية في التطبيقات الواقعية. تحاول معظم الطرق تطوير عمليات مختلفة على مناطق الاهتمام (RoI) لدمج جزء الكشف وجزء التعرف على التسلسل في إطار عمل ثنائي المراحل للتصنيف النصي. ومع ذلك، في هذا الإطار، يكون جزء التعرف حساسًا للغاية للنتائج المُكتشفة (مثلًا: كثافة حدود النص). لحل هذه المشكلة، نقترح في هذه الورقة إطار عمل جديد للتصنيف النصي من مرحلة واحدة يُسمى MANGO (Mask AttentioN Guided One-stage text spotting)، حيث يمكن التعرف المباشر على التسلسلات الحرفية دون الحاجة إلى عمليات RoI. وبشكل محدد، تم تطوير وحدة انتباه قناع مُوجَّهة بالمكان لتوليد أوزان انتباه لكل مثيل نصي وحروفه. وتسمح هذه الوحدة بتخصيص كل مثيل نصي في الصورة إلى قنوات مختلفة في خريطة الميزات، والتي تُجمَّع لاحقًا كمجموعة من ميزات المثيلات. وأخيرًا، يتم تطبيق فكّ تسلسلي خفيف الوزن لتوليد التسلسلات الحرفية. ومن المهم الإشارة إلى أن MANGO يتكيف تلقائيًا مع التصنيف النصي بأي شكل، ويمكن تدريبه من النهاية إلى النهاية باستخدام معلومات موضعية خشنة فقط (مثلًا: مربع حدود مستطيل) والتعليقات النصية. أظهرت النتائج التجريبية أن الطريقة المقترحة تحقق أداءً تنافسيًا وحتى أفضل من الأداء الراهن في مجالات التصنيف النصي المنتظم وغير المنتظم، مثل مجموعات بيانات ICDAR 2013، ICDAR 2015، Total-Text، وSCUT-CTW1500.

مANGO: مُرشِّح نصّي مُتعدّد المشاهد ذات مرحلة واحدة مُوجَّه بالانتباه التبقيتي | أحدث الأوراق البحثية | HyperAI