استكشاف القدرة الشبكية لشبكة التجزئة بدون ترتيب للمربعات للكشف عن النص المسرحي متعدد الاتجاهات

تمثل كشف النص في المشاهد متعددة الاتجاهات محور اهتمام بحثي كبير في الآونة الأخيرة. اعتمد الطرق السابقة على توقع الكلمات أو خطوط النص مباشرة، وغالبًا ما تم ذلك باستخدام أشكال رباعية الأضلاع. ومع ذلك، تجاهل العديد من هذه الطرق الأهمية التي تمثلها التسمية المتسقة، والتي تُعد حاسمة في الحفاظ على استقرار عملية التدريب، خاصةً عند التعامل مع كميات كبيرة من البيانات. ولحل هذه المشكلة، نقترح طريقة جديدة تُسمى "تَجزئة الصندوق بدون ترتيب" (OBD)، والتي تقوم أولاً بتفكيك الصندوق الرباعي إلى عدة حواف رئيسية تحتوي على جميع المواقع المحتملة أفقيًا وعموديًا. ولإعادة بناء صناديق الحدود الرباعية بدقة، تم اقتراح إجراء تطابق بسيط وفعال. تحل هذه الطريقة مشكلة الغموض التي تؤثر بشكل كبير على عملية التعلم. وقد أجرينا دراسات تحليلية واسعة لتأكيد الفعالية الكمية للطريقة المقترحة. والأهم من ذلك، استنادًا إلى OBD، قمنا بتحليل مفصل لتأثير مجموعة من التحسينات، مما قد يُلهم آخرين لتطوير كاشفات نصية متطورة للغاية. وبدمج OBD مع هذه التحسينات المفيدة، تحققنا بأداء متميز على مجموعة متنوعة من المعايير، بما في ذلك ICDAR 2015 وMLT. كما حصلت طريقة لدينا على المركز الأول في مهمة كشف النص ضمن التحدي الصلب لقراءة النصوص في ICDAR2019، خصوصًا في مهمة قراءة النص الصيني على لوحات الإشارة، مما يُثبت أداءها المتميز بشكل إضافي. يمكن الاطلاع على الكود من خلال الرابط: https://git.io/TextDet.