HyperAIHyperAI
منذ 2 أشهر

TextSnake: تمثيل مرن للكشف عن النصوص ذات الأشكال произвольной

Long, Shangbang ; Ruan, Jiaqiang ; Zhang, Wenjie ; He, Xin ; Wu, Wenhao ; Yao, Cong
TextSnake: تمثيل مرن للكشف عن النصوص ذات الأشكال произвольной
الملخص

بفضل الشبكات العصبية العميقة والقواعد البيانات الكبيرة، تقدمت طرق كشف النص في الصور بشكل كبير خلال السنوات الماضية، وأعادت تحديث السجلات الأداء في معايير مختلفة ومعترف بها. ومع ذلك، فإن الطرق الحالية قد تكون غير كافية عند التعامل مع نصوص ذات أشكال حرة أكثر، مثل النصوص المنحنية، والتي تظهر بشكل شائع في السيناريوهات الواقعية. لحل هذه المشكلة، نقترح تمثيلًا أكثر مرونة للنصوص في الصور يُطلق عليه اسم TextSnake (ثعبان النص)، والذي يمكنه التمثيل الفعال للنصوص في الأشكال الأفقية والمائلة والمنحنية. في TextSnake (ثعبان النص)، يتم وصف كل نص كسلسلة من الأقراص المترابطة والمتوالية والمتمركزة على محاور متناظرة، حيث يمكن أن يكون لكل قرص نصف قطر وتوجيه متغيرين محتملين. يتم تقدير هذه الخواص الهندسية عبر نموذج شبكة عصبية تقنية التعلم العميق بالكامل (FCN). في التجارب، حقق الكاشف النصي المستند إلى TextSnake (ثعبان النص) أداءً رائدًا أو مكافئًا لأحدث التقنيات على قاعدة بيانات Total-Text وقاعدة بيانات SCUT-CTW1500، وهما قاعدتا بيانات جديدتان تركزان بشكل خاص على النصوص المنحنية في الصور الطبيعية، بالإضافة إلى القواعد البيانات الشائعة الاستخدام ICDAR 2015 و MSRA-TD500. بخاصة، يتفوق TextSnake (ثعبان النص) على الأساس المرجعي بنسبة تزيد عن 40% في مقاس F-measure.

TextSnake: تمثيل مرن للكشف عن النصوص ذات الأشكال произвольной | أحدث الأوراق البحثية | HyperAI