التعرف الدقيق على النصوص في المشاهد مع التصحيح التلقائي

التعرف على النصوص في الصور الطبيعية هو مهمة صعبة تحتوي على العديد من المشكلات غير المحسومة. تختلف الكلمات في الصور الطبيعية عن تلك الموجودة في الوثائق، حيث غالباً ما تتميز بأشكال غير منتظمة ناجمة عن تشوهات المنظور وترتيب الحروف المنحني وغيرها. نقترح نظام RARE (التعرف القوي على النص مع التحيح التلقائي) وهو نموذج للتعرف يمتاز بمقاومته للنصوص الغير منتظمة. يتكون RARE من شبكة تحويل فضائي (Spatial Transformer Network - STN) ومن شبكة التعرف على المتتاليات (Sequence Recognition Network - SRN). أثناء الاختبار، يتم أولاً تصحيح الصورة عبر تحويل رقيقة الصفائح المتنبأ به (Thin-Plate-Spline Transformation - TPS)، ليتم تحويلها إلى صورة أكثر "قابلية للقراءة" لشبكة SRN اللاحقة، والتي تتعرف على النصوص باستخدام نهج التعرف على المتتاليات. نوضح أن النموذج قادر على التعرف على عدة أنواع من النصوص الغير منتظمة، بما في ذلك النصوص ذات المنظور المنحرف والنصوص المنحنية. يمكن تدريب RARE بشكل متكامل من البداية إلى النهاية، حيث يحتاج فقط إلى صور ومعادلات النص المرتبطة بها، مما يجعله سهل الاستخدام والنشر في الأنظمة العملية. الأداء الرائد أو شديد التنافس الذي حققه النظام على عدة مقاييس يدل بوضوح على فعالية النموذج المقترح.