مكتشف النص ذو القناع الهرمي

كشف النص في المشهد، وهو خطوة أساسية في نظام التعرف على النص في المشهد، يهدف إلى تحديد حالات النص تلقائيًا في صور المشهد الطبيعي. بعض المحاولات الحديثة التي استفادت من طريقة Mask R-CNN صاغت مهمة كشف النص في المشهد كمشكلة تقسيم الحالات وحققت أداءً ملحوظًا. في هذا البحث، نقدم إطارًا جديدًا يستند إلى Mask R-CNN باسم Pyramid Mask Text Detector (PMTD) لمعالجة كشف النص في المشهد. بدلاً من القناع الثنائي للنص الذي تولده الطرق الحالية المستندة إلى Mask R-CNN، يقوم PMTD بإجراء الانحدار على مستوى البكسل تحت إشراف يعتمد على الموقع، مما ينتج قناع نص ناعم أكثر إفادة لكل حالة نص. فيما يتعلق بإنشاء مربعات النص، يعيد PMTD تفسير القناع الناعم ثنائي الأبعاد المُحصل عليه إلى الفضاء ثلاثي الأبعاد ويُدخل خوارزمية تجميع جديدة للطائرة لاستخراج أفضل مربع نص بناءً على الشكل ثلاثي الأبعاد. تُظهر التجارب على مجموعة بيانات قياسية أن الإطار المقترح PMTD يجلب اكتسابًا ثابتًا وملاحظًا ويتفوق بوضوح على الأساليب الرائدة حاليًا. بشكل خاص، يصل إلى معامل F بنسبة 80.13% على مجموعة بيانات ICDAR 2017 MLT.