HyperAIHyperAI
منذ 2 أشهر

التعرف الدقيق على النصوص في المشاهد مع التصحيح التلقائي

Baoguang Shi; Xinggang Wang; Pengyuan Lyu; Cong Yao; Xiang Bai
التعرف الدقيق على النصوص في المشاهد مع التصحيح التلقائي
الملخص

التعرف على النصوص في الصور الطبيعية هو مهمة صعبة تحتوي على العديد من المشكلات غير المحسومة. تختلف الكلمات في الصور الطبيعية عن تلك الموجودة في الوثائق، حيث غالباً ما تتميز بأشكال غير منتظمة ناجمة عن تشوهات المنظور وترتيب الحروف المنحني وغيرها. نقترح نظام RARE (التعرف القوي على النص مع التحيح التلقائي) وهو نموذج للتعرف يمتاز بمقاومته للنصوص الغير منتظمة. يتكون RARE من شبكة تحويل فضائي (Spatial Transformer Network - STN) ومن شبكة التعرف على المتتاليات (Sequence Recognition Network - SRN). أثناء الاختبار، يتم أولاً تصحيح الصورة عبر تحويل رقيقة الصفائح المتنبأ به (Thin-Plate-Spline Transformation - TPS)، ليتم تحويلها إلى صورة أكثر "قابلية للقراءة" لشبكة SRN اللاحقة، والتي تتعرف على النصوص باستخدام نهج التعرف على المتتاليات. نوضح أن النموذج قادر على التعرف على عدة أنواع من النصوص الغير منتظمة، بما في ذلك النصوص ذات المنظور المنحرف والنصوص المنحنية. يمكن تدريب RARE بشكل متكامل من البداية إلى النهاية، حيث يحتاج فقط إلى صور ومعادلات النص المرتبطة بها، مما يجعله سهل الاستخدام والنشر في الأنظمة العملية. الأداء الرائد أو شديد التنافس الذي حققه النظام على عدة مقاييس يدل بوضوح على فعالية النموذج المقترح.

التعرف الدقيق على النصوص في المشاهد مع التصحيح التلقائي | أحدث الأوراق البحثية | HyperAI