Command Palette
Search for a command to run...
كشف النص المنحني في البيئة الطبيعية: مجموعة بيانات جديدة وحل جديد
كشف النص المنحني في البيئة الطبيعية: مجموعة بيانات جديدة وحل جديد
Yuliang Liu Lianwen Jin Shuaitao Zhang Sheng Zhang
الملخص
لقد حققت الكشف عن النص في المشهد تقدماً كبيراً في السنوات الأخيرة. وتطورت طرق الكشف من المستطيلات المحاذية للمحاور إلى المستطيلات المائلة، ثم إلى الرباعيات. ومع ذلك، تحتوي المجموعات الحالية على كمية ضئيلة من النص المنحني، الذي يُلاحظ بشكل واسع في الصور الميدانية مثل لوحات الإشارات والأسماء التجارية، وغيرها. وللإثارة من اهتمام قراءة النص المنحني في البيئات الطبيعية، قمنا في هذا البحث ببناء مجموعة بيانات للنص المنحني تُسمى CTW1500، والتي تتضمن أكثر من 10,000 تسمية نصية في 1,500 صورة (1,000 صورة للتدريب و500 صورة للاختبار). وباستناد إلى هذه المجموعة، نقترح لأول مرة كاشفاً للنص المنحني يعتمد على مضلعات (CTD)، والذي يمكنه كشف النص المنحني مباشرة دون الحاجة إلى تركيبات تجريبية. علاوة على ذلك، وباستخدام دمج سلس للاتصالات التكرارية في الاتجاهات العرضية والطولية (TLOC)، يمكن للطريقة المقترحة أن تُدرّس بشكل متسلسل من البداية إلى النهاية، لتعلم الارتباطات الداخلية بين الانزياحات المكانية. هذا يسمح لـ CTD باستكشاف المعلومات السياقية بدلاً من التنبؤ بنقاط بشكل منفصل، مما يؤدي إلى كشف أكثر سلاسة ودقة. كما قمنا بتطوير طريقتين بسيطتين لكن فعالتين في مرحلة ما بعد المعالجة، وهما: "قمع المضلعات" (NPS) و"قمع الحد الأقصى المضلعية" (PNMS)، لتحسين دقة الكشف بشكل إضافي. بالإضافة إلى ذلك، تم تصميم المنهجية المقترحة بطريقة عامة، ويمكن تدريبها بسهولة باستخدام مربعات مستطيلة أو رباعية بدون أي جهد إضافي. أظهرت النتائج التجريبية على مجموعة بيانات CTW1500 أن طريقةنا، حتى باستخدام هيكل خفيف (backbone)، تتفوق على الطرق الأفضل حالياً بفارق كبير. وبإجراء التقييم فقط على المجموعة الفرعية للنصوص المنحنيّة أو غير المنحنيّة، لا يزال بإمكان CTD + TLOC تحقيق أفضل النتائج. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/Yuliang-Liu/Curve-Text-Detector.