طريقة للكشف عن النصوص ذات الأشكال العشوائية في المشاهد الطبيعية تُحسّن من كفاءة الكشف عن النصوص

فهم معنى النص المُحتوى في الصور الخاصة بالمشاهد الطبيعية، مثل لوحات الطرق أو شعارات المتاجر، يُعد تحديًا خاصًا إذا كان النص مُختزلًا بصريًا في الصورة أو كانت الحروف مُشَوَّهة بأسلوب فني. نقدم إطارًا مبنيًا على خطوات (pipeline-based) للكشف عن النص، يُمكنه اكتشاف وفهم النصوص بجميع الخطوط والأشكال والاتجاهات في صور المشاهد الطبيعية ذات الخلفيات المعقدة. تكمن المساهمة الرئيسية في عملنا في مكون الكشف عن النص، الذي أطلقنا عليه اسم UHT، وهو اختصار لـ UNet وHeatmap وTextfill. يستخدم UHT شبكة UNet لحساب خرائط الحرارة (heatmaps) لمناطق النص المرشحة، ويُطبّق خوارزمية Textfill لإنشاء حدود متعددة الأضلاع ضيقة حول كل كلمة ضمن هذه المناطق. يتم تدريب شبكة UNet باستخدام خرائط حرارة حقيقية (groundtruth heatmaps) تم استخلاصها من مربعات حدود النص (text bounding polygons) المقدمة في التصنيفات الحقيقية (groundtruth annotations). يُسمى الإطار المتكامل للكشف عن النص بـ UHTA، حيث يدمج UHT مع نظام التعرف على النص الأحدث والأكثر تقدمًا، وهو ASTER. أظهرت التجارب على أربع مجموعات بيانات صعبة وعامة للكشف عن النص في المشاهد (Total-Text، SCUT-CTW1500، MSRA-TD500، وCOCO-Text) فعالية وقدرة تعميم عالية لـ UHT في الكشف عن نصوص متعددة اللغات (وقد تكون مُدورَة) وخطوط مستقيمة، وكذلك نصوص منحنية مكتوبة بخطوط متعددة اللغات. أظهرت نتائج تجربة UHTA على مجموعة بيانات Total-Text أن UHTA تتفوّق على أربعة أطر كشف نص حديثة ومتقدمة على الأقل بـ 9.1 نقطة مئوية في معامل F-measure، مما يشير إلى إمكانية استخدام UHTA كنظام كامل للكشف عن النص والفهم في التطبيقات الواقعية.