HyperAIHyperAI
منذ 8 أيام

TPSNet: التفكير العكسي للفُرَج الرقيقة ذات الأشكال العشوائية لتمثيل نصوص المشهد

Wei Wang, Yu Zhou, Jiahao Lv, Dayan Wu, Guoqing Zhao, Ning Jiang, Weiping Wang
TPSNet: التفكير العكسي للفُرَج الرقيقة ذات الأشكال العشوائية لتمثيل نصوص المشهد
الملخص

في السنوات الأخيرة، اتجه تركيز البحث في مجال كشف وتمييز النصوص في المشاهد نحو النصوص ذات الأشكال العشوائية، حيث يُعد تمثيل شكل النص مشكلة أساسية. وفقًا لنا، يجب أن يكون التمثيل المثالي مكثفًا، وشاملاً، وكفؤًا، وقابلًا لإعادة الاستخدام في المراحل التالية من التمييز. ومع ذلك، فإن التمثيلات السابقة تعاني من عيوب في جانب واحد أو أكثر. وقد حققت تحويلة التماثل الرقيق (Thin-Plate-Spline, TPS) نجاحًا كبيرًا في مجال تمييز النصوص في المشاهد. مستلهمين من هذا النجاح، نحن نعيد التفكير في استخدام TPS بشكل عكسي، ونُقدِّمها بذكاء كتمثيل متميز للنصوص ذات الأشكال العشوائية. يتميز تمثيل TPS بالكثافة، والشمولية، والكفاءة. وباستخدام المعاملات المُقدَّرة لتحويل TPS، يمكن تحويل المنطقة المكتشفة للنص مباشرة إلى شكل تقريبي أفقي، مما يُسهم في تحسين عملية التمييز اللاحقة. ولاستغلال الإمكانات الكامنة في تمثيل TPS بشكل أعمق، نقترح خسارة التماثل الحدودي (Border Alignment Loss). وباستناد إلى هذه التصاميم، نُنفِّذ كاشف النصوص TPSNet، الذي يمكن توسيعه بسهولة إلى نظام كشف وتمييز نصوص (Text Spotter). وتشير التقييمات الواسعة والتحليلات الاستبدالية على عدة معايير عامة إلى فعالية وتفوّق الطريقة المقترحة في تمثيل النصوص وتقديمها. وبشكل خاص، حقق TPSNet تحسنًا في معامل الدقة (F-Measure) للكشف بنسبة 4.4% (78.4% مقابل 74.0%) على مجموعة بيانات Art، وتحسنًا في معامل التمييز النهائية (end-to-end spotting F-Measure) بنسبة 5.0% (78.5% مقابل 73.5%) على مجموعة Total-Text، وهي فروقات كبيرة دون الحاجة إلى إضافات معقدة أو تقنيات إضافية.

TPSNet: التفكير العكسي للفُرَج الرقيقة ذات الأشكال العشوائية لتمثيل نصوص المشهد | أحدث الأوراق البحثية | HyperAI