اكتشاف النص المنحني في البيئة الحقيقية: مجموعة بيانات جديدة وحل جديد

حققت الكشف عن النصوص في الصور تقدماً كبيراً في السنوات الأخيرة. طرق الكشف تتطور من المستطيلات المحاذية للمحور إلى المستطيلات الدوارة ومن ثم إلى الأرباع. ومع ذلك، فإن المجموعات الحالية من البيانات تحتوي على القليل جداً من النصوص المنحنية، والتي يمكن ملاحظتها بشكل واسع في صور المشاهد مثل لافتات الإعلانات وأسماء المنتجات وغيرها. لزيادة الاهتمام بقراءة النصوص المنحنية في البيئات الطبيعية، نقوم في هذا البحث ببناء مجموعة بيانات للنصوص المنحنية تُسمى CTW1500، والتي تتضمن أكثر من 10,000 تعليمة نصية في 1,500 صورة (1,000 للتدريب و500 للاختبار).بناءً على هذه المجموعة من البيانات، نقترح لأول مرة كاشف نصوص منحنية يعتمد على مضلع (CTD) يمكنه الكشف مباشرة عن النصوص المنحنية دون الحاجة إلى تركيب تجريبي. بالإضافة إلى ذلك، من خلال دمج الارتباط العرضي والطولي المتكرر (TLOC) بطريقة سلسة، يمكن تدريب الطريقة المقترحة بشكل كامل لتعلم الارتباط الداخلي بين اختلافات المواقع. هذا يتيح للكاشف CTD استكشاف المعلومات السياقية بدلاً من التنبؤ بالنقاط بشكل مستقل، مما يؤدي إلى كشف أكثر سلاسة ودقة. كما نقترح أيضاً طريقتين بسيطتين ولكن فعالتين للمعالجة ما بعد الكشف تُسميان قمع غير المضلع (NPS) والقمع غير الأقصى المضلعي (PNMS) لتحسين دقة الكشف بشكل أكبر.علاوة على ذلك، تم تصميم الطريقة المقترحة في هذا البحث بطريقة عامة، مما يعني أنها يمكن أن يتم تدريبها باستخدام صناديق الحدود المستطيلة أو الأربعة الزوايا دون جهد إضافي. أظهرت النتائج التجريبية على CTW-1500 أن طريقتنا بإمكانها التفوق على أفضل الأساليب الحالية بمقدار كبير حتى مع استخدام هيكل خفيف فقط. عند التقييم في مجموعة الفرع المنحني أو غير المنحني فقط، لا يزال CTD + TLOC يحقق أفضل النتائج. الرمز متاح على https://github.com/Yuliang-Liu/Curve-Text-Detector.