شبكات التطبيع الهندسي للكشف الدقيق عن النصوص في المشهد

التحديات الرئيسية في اكتشاف النصوص في المشاهد تتمثل في الاختلافات الكبيرة في الهندسة (مثل التوجيه).在这项工作中,我们首先进行实验以研究网络在检测场景文本时学习几何差异的能力,并发现网络只能处理有限的文本几何差异。 ثم،我们提出了一种具有多个分支的新颖几何归一化模块(GNM),每个分支由一个尺度归一化单元和一个方向归一化单元组成,通过至少一个分支将每个文本实例归一化到所需的规范几何范围内。 GNM是通用的,可以轻松地集成到现有的基于卷积神经网络的文本检测器中,以构建端到端的几何归一化网络(GNNets)。此外,我们提出了一种几何感知训练方案,通过从均匀的几何变异分布中采样和增强文本实例来有效训练GNNets。最后,在ICDAR 2015和ICDAR 2017 MLT流行基准上的实验验证了我们的方法显著优于所有最先进的方法,分别获得了88.52和74.54的一次前向测试F分数。修正后的翻译:التحديات الرئيسية في اكتشاف النصوص في المشاهد تتمثل في الاختلافات الكبيرة في الهندسة (مثل الاتجاه). في هذا البحث، أجرينا أولًا تجارب لدراسة قدرة الشبكات على تعلم الاختلافات الهندسية عند اكتشاف النصوص في المشاهد، واكتشفنا أن الشبكات تستطيع التعامل مع اختلافات هندسية محدودة للنصوص فقط. بعد ذلك، قدمنا وحدة تنظيم هندسي جديدة متعددة الفروع (Geometry Normalization Module - GNM)، حيث يتكون كل فرع من وحدة تنظيم مقاييس واحدة ووحدة تنظيم اتجاه واحدة، لتنظيم كل نموذج نص إلى نطاق هندسي قياسي مرغوب من خلال فرع واحد على الأقل. يمكن دمج الوحدة GNM بسهولة مع كاشفات النصوص القائمة على الشبكات العصبية المتشابكة التقليدية لبناء شبكات تنظيم هندسي من طرف إلى طرف (Geometry Normalization Networks - GNNets). بالإضافة إلى ذلك، اقترحنا خطة تدريب حساسة للهندسة لتدريب GNNets بكفاءة عن طريق استخراج وتضخيم نماذج النصوص من توزيع هندسي متنوع بشكل موحد. وأخيرًا، أثبتت التجارب التي أجريت على المعايير الرائجة لـ ICDAR 2015 وICDAR 2017 MLT أن طريقتنا تتفوق بشكل كبير على جميع الأساليب الرائدة الأخرى، حيث حققت درجات F- measure بمقدار 88.52 و74.54 على التوالي عند إجراء اختبار الإرسال الأولي.