HyperAIHyperAI
منذ 8 أيام

SwinTextSpotter: التعرف على النص في المشهد من خلال تآزر أفضل بين كشف النص والاعتراف بالنص

Mingxin Huang, Yuliang Liu, Zhenghao Peng, Chongyu Liu, Dahua Lin, Shenggao Zhu, Nicholas Yuan, Kai Ding, Lianwen Jin
SwinTextSpotter: التعرف على النص في المشهد من خلال تآزر أفضل بين كشف النص والاعتراف بالنص
الملخص

حصل التعرف على النص في المشهد من الطرف إلى الطرف على اهتمام كبير في السنوات الأخيرة بفضل النجاح في استكشاف التآزر الداخلي بين كلا المهمتين: كشف النص في المشهد والتعرف عليه. ومع ذلك، فإن الطرق الحديثة الأفضل عادةً ما تدمج بين الكشف والتعرف من خلال مشاركة المُدخل الأساسي (backbone) فقط، دون الاستفادة المباشرة من التفاعل بين الخصائص المُستخرجة من المهمتين. في هذا البحث، نقترح إطارًا جديدًا للكشف عن النص في المشهد من الطرف إلى الطرف يُسمى SwinTextSpotter. نستخدم مُشفّر تحويلي (transformer encoder) مع رأس ديناميكي كمُكتشف، ونوحد المهمتين من خلال آلية جديدة تُسمى "تحويل التعرف" (Recognition Conversion)، والتي توجه بشكل صريح عملية تحديد موقع النص من خلال دالة الخسارة الخاصة بالتعرف. يُنتج التصميم البسيط إطارًا موجزًا لا يحتاج إلى وحدة تصحيح إضافية، ولا إلى تسمية على مستوى الحروف بالنسبة للنصوص ذات الأشكال العشوائية. تُظهر التجارب الكمية والكيفية على مجموعات بيانات ذات اتجاهات متعددة (RoIC13 وICDAR 2015)، ومجموعات بيانات للنصوص ذات الأشكال العشوائية (Total-Text وCTW1500)، ومجموعات بيانات متعددة اللغات (ReCTS بالصينية وVinText بالفيتنامية) أن SwinTextSpotter يتفوق بشكل ملحوظ على الطرق الحالية. يُمكن الاطلاع على الكود عبر الرابط: https://github.com/mxin262/SwinTextSpotter.