حقل اتجاه عميق للكشف عن النصوص المشهدية غير المنتظمة

اكتشاف النصوص في المشهد هو خطوة مهمة في نظام قراءة النصوص في المشهد. تحديات هذا المجال تكمن بشكل رئيسي في الأحجام والنسب المتنوعة بشكل كبير، والتوجهات والأشكال العشوائية. بفضل التقدم الحديث في مجال التعلم العميق، تم تحقيق أداء متميز في اكتشاف النصوص متعددة التوجهات. ومع ذلك، ينخفض الأداء بشكل كبير عند اكتشاف النصوص المنحنية بسبب التمثيل المحدود للنصوص (مثل الصناديق الحدودية الأفقية، المستطيلات الدوارة، أو الأرباع). من الاهتمام الكبير اكتشاف النصوص المنحنية التي تكون شائعة جدًا في المشاهد الطبيعية. في هذه الورقة البحثية، نقدم كاشف نص جديد يُسمى TextField للكشف عن النصوص غير المنتظمة في المشهد. بالتحديد، نتعلم حقل اتجاه يشير بعيدًا عن أقرب حد للنص إلى كل نقطة نص. يتم تمثيل هذا الحقل الاتجاهي بواسطة صورة تتكون من متجهات ثنائية الأبعاد ويتم تعلمه عبر شبكة عصبية تقنية التعلم بالتشبيك الكامل (Fully Convolutional Neural Network). يشفر الحقل الاتجاهي المستفاد منه القناع الثنائي للنص والمعلومات الاتجاهية المستخدمة لفصل الحالات المجاورة من النصوص، وهي مهمة صعبة بالنسبة للطرق التقليدية القائمة على الفصل (segmentation-based approaches). بناءً على الحقل الاتجاهي المستفاد منه، نطبق معالجة ما بعد التشغيل البسيطة ولكنها فعالة تعتمد على علم الشكليات لتحقيق الكشف النهائي. تظهر نتائج التجارب أن الطريقة المقترحة TextField تتفوق على أفضل الأساليب المعروفة بمقدار كبير (28٪ و 8٪) على قاعدتي بيانات النصوص المنحنية: Total-Text و CTW1500 على التوالي، كما أنها تحقق أداءً تنافسيًا جدًا على قواعد البيانات متعددة التوجهات: ICDAR 2015 و MSRA-TD500. بالإضافة إلى ذلك، يتمتع TextField بالمتانة في تعميمه إلى قواعد بيانات غير مشاهدة سابقًا. يمكن الوصول إلى الرمز البرمجي عبر الرابط https://github.com/YukangWang/TextField.