HyperAIHyperAI
منذ 16 أيام

مُنظار النص المُشاهد: تحسين دقة الصورة المشهدية المُركّزة على النص

{xiangyang xue, Bin Li, Jingye Chen}
مُنظار النص المُشاهد: تحسين دقة الصورة المشهدية المُركّزة على النص
الملخص

الاسترجاع العالي للدقة الصورية، الذي يُعتبر غالبًا إجراءً ما قبل معالجة في التعرف على النصوص في المشاهد، يهدف إلى استرجاع السمات الواقعية من صور نصية منخفضة الدقة. وظل هذا التحدي دائمًا صعبًا بسبب التغيرات الكبيرة في أشكال النصوص، والخطوط، والخلفيات، وغيرها. ومع ذلك، فإن معظم الطرق الحالية تستخدم أطرًا عامة لاسترجاع الدقة العالية لمعالجة صور النصوص في المشاهد، مع تجاهل الخصائص المحددة للنصوص، مثل التخطيط على مستوى النصوص والتفاصيل على مستوى الحروف. في هذا البحث، نُنشئ إطارًا مُركّزًا على النصوص لاسترجاع الدقة العالية، يُسمى "مُصباح النصوص في المشاهد" (Scene Text Telescope - STT). من حيث التخطيط على مستوى النصوص، نقترح شبكة استرجاع دقة قائمة على مُحول (Transformer-Based Super-Resolution Network - TBSRN) تحتوي على وحدة انتباه ذاتي (Self-Attention Module) لاستخراج المعلومات التسلسلية، وهي قادرة على التعامل مع النصوص بأي اتجاهات عشوائية. من حيث التفاصيل على مستوى الحروف، نقترح وحدة مُستشعرة للموقع ووحدة مُستشعرة للمحتوى لتسليط الضوء على موقع كل حرف ومحتواه. وبما أن بعض الحروف تبدو غير قابلة للتمييز في ظروف الدقة المنخفضة، نستخدم دالة خسارة موزونة على شكل تقاطع التفاضل (Weighted Cross-Entropy Loss) لمعالجة هذه المشكلة. أجرينا تجارب واسعة، تشمل التعرف على النصوص باستخدام معالجات مُدرّبة مسبقًا وتقييم جودة الصورة، على مجموعة بيانات TextZoom وبعض معايير التعرف على النصوص في المشاهد لتقييم صور الاسترجاع عالية الدقة. أظهرت النتائج التجريبية أن STT قادر فعلاً على إنتاج صور استرجاع دقة مُركّزة على النصوص، وأنه يتفوق على الطرق الحالية من حيث دقة التعرف.

مُنظار النص المُشاهد: تحسين دقة الصورة المشهدية المُركّزة على النص | أحدث الأوراق البحثية | HyperAI