HyperAIHyperAI
منذ 2 أشهر

اكتشاف النص في المشهد من خلال التنبؤ الشامل متعدد القنوات

Cong Yao; Xiang Bai; Nong Sang; Xinyu Zhou; Shuchang Zhou; Zhimin Cao
اكتشاف النص في المشهد من خلال التنبؤ الشامل متعدد القنوات
الملخص

في الآونة الأخيرة، أصبح اكتشاف النص في الصور موضوع بحث نشط في مجال رؤية الحاسوب وتحليل الوثائق، نظرًا لأهميته الكبيرة والتحديات المهمة التي يواجهها. ومع ذلك، فإن معظم الطرق الموجودة تكتشف النص داخل مناطق محلية، عادةً من خلال استخراج مرشحين على مستوى الحرف أو الكلمة أو السطر، تليها عملية جمع المرشحين وإزالة الإيجابيات الكاذبة، مما قد يؤدي إلى استبعاد تأثير المؤشرات السياقية ذات النطاق الواسع والمسافة الطويلة في المشهد. للاستفادة الكاملة من المعلومات الغنية المتاحة في الصورة الطبيعية بأكملها، نقترح تحديد موقع النص بطريقة شاملة، وذلك بتحويل اكتشاف النص في الصور إلى مشكلة تقسيم دلالي (semantic segmentation). يعمل الخوارزم المُقترح مباشرة على الصور الكاملة وينتج خرائط تنبؤ بكامل البكسلات، حيث يتم تشكيل الاكتشافات لاحقًا. للحصول على استخدام أفضل لخصائص النص، يتم تقدير ثلاثة أنواع من المعلومات المتعلقة بمنطقة النص والحروف الفردية والعلاقات بينها باستخدام نموذج شبكة تماثلية بالكامل (Fully Convolutional Network - FCN). بفضل هذه التوقعات لخصائص النص، يمكن للخوارزم المُقترح التعامل مع النص الأفقي والموجه بعدة اتجاهات والمنحنى في الصور الطبيعية الواقعية بشكل متزامن. أظهرت التجارب على معايير مرجعية قياسية، بما في ذلك ICDAR 2013 وICDAR 2015 وMSRA-TD500، أن الخوارزم المُقترح يتفوق بشكل كبير على الأساليب السابقة الرائدة. بالإضافة إلى ذلك، نقدم أول نتيجة أساسية على مجموعة البيانات الضخمة التي تم إصدارها مؤخرًا COCO-Text.

اكتشاف النص في المشهد من خلال التنبؤ الشامل متعدد القنوات | أحدث الأوراق البحثية | HyperAI