ABCNet v2: شبكة منحنى بيزيه متعددة التكيف للتنبؤ بالنصوص في الزمن الفعلي ونظام كامل

يُعدّ التعرف على النص من الطرف إلى الطرف (End-to-end text-spotting)، الذي يهدف إلى دمج المهمتين المتكاملتين للكشف عن النص والاعتراف به ضمن إطار موحد، موضوعًا يجذب اهتمامًا متزايدًا بفضل بساطة هذا النهج بالنسبة للوظيفتين المكملتين. ومع ذلك، يظل التحدي مفتوحًا خاصة عند التعامل مع حالات النص ذات الأشكال العشوائية. يمكن تقسيم الطرق السابقة إلى مجموعتين رئيسيتين: المبنية على الحروف (character-based) والمنبثقة من التقسيم (segmentation-based)، والتي غالبًا ما تتطلب تسميات على مستوى الحرف و/أو معالجة ما بعدية معقدة بسبب الناتج غير المنظم. في هذا العمل، نتناول مشكلة التعرف على النص من الطرف إلى الطرف من خلال عرض شبكة منحنى بيزير التكيفية (Adaptive Bezier Curve Network v2) أو ما يُعرف بـ ABCNet v2. تتمثل مساهماتنا الرئيسية في أربع جوانب:1) لأول مرة، نستخدم منحنى بيزير مُعدّل تلقائيًا لتناسب النصوص ذات الأشكال العشوائية، حيث يوفر هذا النهج، مقارنة بالطرق القائمة على التقسيم، مخرجات منظمة وتمثيلًا قابلاً للتحكم.2) قمنا بتصميم طبقة جديدة تُسمى BezierAlign لاستخراج ميزات تلافيفية دقيقة لInstances النصية ذات الأشكال العشوائية، مما يُحسّن بشكل كبير دقة الاعتراف مقارنة بالطرق السابقة.3) على عكس الطرق السابقة التي تعاني غالبًا من معالجة ما بعدية معقدة وحساسية تجاه المعلمات الفائقة، تُحافظ ABCNet v2 على خط أنابيب بسيط، مع معالجة ما بعدية واحدة فقط هي تقليل الحد الأقصى غير المتناظر (Non-maximum Suppression - NMS).4) وبما أن أداء التعرف على النص يعتمد بشكل وثيق على مطابقة الميزات، تُطبّق ABCNet v2 بشكل إضافي نوعًا بسيطًا وفعالًا من التحويل الإحداثي (coordinate convolution) لترميز مواقع المرشحات التلافيفية، ما يؤدي إلى تحسين ملحوظ مع تكلفة حسابية ضئيلة جدًا.أظهرت التجارب الشاملة التي أُجريت على مجموعة متنوعة من مجموعات البيانات المعيارية ثنائية اللغة (الإنجليزية والصينية) أن ABCNet v2 تحقق أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art) مع الحفاظ على كفاءة عالية جدًا.