PixelLink: كشف النص في المشهد عبر تقسيم الحالة

معظم خوارزميات الكشف عن النص في الصور المتطورة تعتمد على طرق التعلم العميق التي ترتكز على تقدير الصندوق الحدي وتقوم بتنبؤين على الأقل: تصنيف النص/غير النص وتقدير الموقع. يلعب التقدير دورًا مهمًا في الحصول على الصناديق الحدية في هذه الطرق، ولكنه ليس ضروريًا لأن تنبؤ النص/غير النص يمكن أيضًا اعتباره نوعًا من تقسيم الدلالة الذي يحتوي على معلومات موقع كاملة بذاته. ومع ذلك، غالبًا ما تكون حالات النص في صور المشهد قريبة جدًا من بعضها البعض، مما يجعل فصلها عبر تقسيم الدلالة أمرًا صعبًا للغاية. لذلك، يتم استخدام تقسيم الحالات لحل هذه المشكلة. في هذا البحث، تم اقتراح خوارزمية جديدة لكشف النص في الصور تسمى PixelLink (بيكسللينك) وهي تعتمد على تقسيم الحالات. يتم أولاً فصل حالات النص عن طريق ربط البكسلات داخل نفس الحالة معًا. ثم يتم استخراج صناديق حدية النص مباشرة من نتيجة التقسيم دون الحاجة إلى تقدير الموقع. تظهر التجارب أن PixelLink يمكن أن تحقق أداءً أفضل أو مparable مع الطرق المستندة إلى التقدير على عدة مقاييس، بينما تتطلب عددًا أقل بكثير من دورة التدريب وكمية أقل من بيانات التدريب.