استغلال التسميات اللفظية للكشف عن النصوص القائمة على الحروف

النصوص التصويرية عادة ما تنظم كهرمية تتكون من عدة عناصر بصرية، مثل الأحرف والكلمات وخطوط النص وكتل النص. من بين هذه العناصر، يعتبر الحرف هو العنصر الأساسي للعديد من اللغات مثل اللغات الغربية واللغة الصينية واللغة اليابانية والتعبيرات الرياضية وغيرها. من الطبيعي والمريح بناء محرك اكتشاف نص مشترك يعتمد على كاشفات الأحرف. ومع ذلك، يتطلب تدريب كاشفات الأحرف مجموعة كبيرة من الأحرف المُشَاهَدَة موقعياً، والتي تكون باهظة الثمن للحصول عليها. في الواقع، تكون معظم مجموعات البيانات النصية الحقيقية مُشَاهَدَة على مستوى الكلمة أو السطر. لحل هذه المشكلة، نقترح إطارًا مستقلًا ضعيف الإشراف يمكنه الاستفادة من ملاحظات الكلمات، سواء كانت في مضلعات محكمة أو صناديق حدود أكثر استرخاءً، لتدريب كاشفات الأحرف. عند تطبيقها في اكتشاف النصوص المشهدية، نتمكن بذلك من تدريب كاشف حروف قوي باستخدام ملاحظات الكلمات في مجموعات البيانات المشهدية الحقيقية الكبيرة والغنية مثل ICDAR15 وCOCO-text. يلعب كاشف الحروف دورًا رئيسيًا في خط أنابيب محرك اكتشاف النص الخاص بنا. حيث يحقق أداءً رائدًا على عدة مقاييس صعبة لاكتشاف النصوص المشهدية. كما نوضح أيضًا مرونة خط الأنابيب الخاص بنا عبر سيناريوهات مختلفة، بما في ذلك اكتشاف النصوص المتعرجة وتعرف التعبيرات الرياضية (math expression recognition).