HyperAIHyperAI
منذ 8 أيام

TextDragon: إطار عمل من الطرف إلى الطرف للكشف عن النص بأشكاله العشوائية

{ Cheng-Lin Liu, Xu-Yao Zhang, Fei Yin, Wenhao He, Wei Feng}
TextDragon: إطار عمل من الطرف إلى الطرف للكشف عن النص بأشكاله العشوائية
الملخص

تُركّز معظم الطرق الحالية للكشف عن النصوص على النصوص الأفقية أو المائلة، أو تقوم بالكشف عن نصوص ذات أشكال عشوائية باستخدام تسميات على مستوى الحروف. في هذه الورقة، نُقدّم إطارًا جديدًا للكشف عن النصوص يُكتشف ويعترف بالنصوص ذات الأشكال العشوائية بطريقة متكاملة (end-to-end)، باستخدام فقط تسميات على مستوى الكلمة أو السطر أثناء التدريب. مستوحى من اسم نموذج TextSnake، الذي يُعدّ نموذج كشف فقط، نُسمّي الإطار المُقترح للكشف عن النصوص باسم TextDragon. في TextDragon، يتم تصميم كاشف نصوص لوصف شكل النص باستخدام سلسلة من المستطيلات (الرباعيات)، مما يمكّن من التعامل مع النصوص ذات الأشكال العشوائية. ولاستخراج مناطق النصوص ذات الأشكال العشوائية من الخرائط المميزة (feature maps)، نُقدّم مشغلًا جديدًا قابلاً للتمييز يُسمّى RoISlide، وهو العنصر الأساسي الذي يربط بين كشف النصوص ذات الأشكال العشوائية والاعتراف بها. استنادًا إلى الخصائص المستخرجة عبر RoISlide، نُقدّم معالجًا للنص يعتمد على الشبكة العصبية التلافيفية (CNN) وتقنية CTC، مما يجعل الإطار الحر من الحاجة إلى تسمية مواقع الحروف. تُحقّق الطريقة المقترحة أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art) في بحثين معياريين للنصوص المنحنية هما CTW1500 وTotal-Text، ونتائج تنافسية على مجموعة بيانات ICDAR 2015.

TextDragon: إطار عمل من الطرف إلى الطرف للكشف عن النص بأشكاله العشوائية | أحدث الأوراق البحثية | HyperAI