GLASS: انتباه عالمي إلى محلي للتحديد المكاني للنصوص في المشهد

في السنوات الأخيرة، أصبح النموذج السائد في الكشف عن النصوص هو دمج مهام كشف النص وتمييزه في إطار واحد نهائياً (end-to-end). وفي هذا النموذج، تُنفَّذ كلا المهمتين من خلال معالجة خريطة سمة عالمية مشتركة تم استخلاصها من الصورة المدخلة. ومن بين التحديات الرئيسية التي تواجهها النماذج النهائية هو التدهور في الأداء عند تمييز النصوص التي تختلف في الحجم (صغيرة أو كبيرة) وزوايا دوران الكلمات بشكل عشوائي. وفي هذا العمل، نعالج هذه التحديات من خلال اقتراح آلية انتباه جديدة تنتقل من السمة العالمية إلى المحلية للكشف عن النصوص، تُسمَّى GLASS، والتي تُدمج بين السمات العالمية والمحليّة. حيث تُستخرج السمات العالمية من الهيكل المشترك (backbone)، مع الحفاظ على المعلومات السياقية من كامل الصورة، بينما تُحسب السمات المحلية بشكل منفصل على قطع كلمات مُعاد تعيين حجمها وذات دقة عالية، ومُلفّة بزوايا دوران مختلفة. وتُخفّف المعلومات المستخرجة من هذه القطع المحلية من الصعوبات الجوهرية المتعلقة بالحجم وزوايا دوران الكلمات. ونُظهر تحليلًا للأداء عبر مختلف الحجوم والزوايا، مع التأكيد على التحسينات المحققة عند الحدود القصوى للحجم والزاوية. بالإضافة إلى ذلك، نُقدّم حدًا جديدًا في الدالة الخسارة يراعي الاتجاه (orientation-aware loss)، ونُظهر مساهمته في تحسين أداء كلا المهمتين (كشف النص وتمييزه) عبر جميع الزوايا. وأخيرًا، نُبيّن أن GLASS قابلة للتعميم من خلال دمجها في معماريات كشف النصوص الرائدة الأخرى، مما يُحسّن أداؤها في الكشف عن النصوص. ويُحقّق نهجنا نتائج متقدمة على عدة معايير، بما في ذلك المعيار الجديد TextOCR.