HyperAIHyperAI
منذ 11 أيام

كشف النص المُشاهد في الزمن الفعلي باستخدام التبديل القابل للتفاضل

Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, Xiang Bai
كشف النص المُشاهد في الزمن الفعلي باستخدام التبديل القابل للتفاضل
الملخص

في الآونة الأخيرة، أصبحت الطرق القائمة على التقسيم شائعة جدًا في كشف النص في المشاهد، نظرًا لأن نتائج التقسيم يمكنها وصف النص في المشاهد بشكل أكثر دقة، بغض النظر عن أشكاله المختلفة مثل النص المنحني. ومع ذلك، فإن المعالجة اللاحقة للتشفير الثنائي (Binarization) تُعد ضرورية للكشف القائم على التقسيم، حيث تقوم بتحويل الخرائط الاحتمالية التي تُنتجها طريقة التقسيم إلى مربعات حدودية أو مناطق نصية. في هذه الورقة، نقترح وحدة تُسمى التشفير القابل للتفاضل (Differentiable Binarization - DB)، التي تُنفذ عملية التشفير الثنائي مباشرة داخل شبكة التقسيم. وبتحسين الشبكة مع وحدة DB، يمكنها ضبط حدود التشفير بشكل تكيفي، مما يبسط المعالجة اللاحقة ويعزز أداء كشف النص في الوقت نفسه. وباستخدام شبكة تقسيم بسيطة، نتحقق من تحسينات الأداء التي يحققها DB على خمسة مجموعات معيارية، حيث يحقق باستمرار نتائج رائدة في مجال دقة الكشف وسرعته. وبشكل خاص، مع استخدام هيكل خفيف الوزن (light-weight backbone)، تصبح التحسينات في الأداء ملحوظة جدًا، مما يمكّننا من تحقيق توازن مثالي بين دقة الكشف والكفاءة. على وجه التحديد، وباستخدام هيكل ResNet-18، يحقق كاشفنا معامل F قدره 82.8، وبمعدل 62 إطارًا في الثانية (FPS) على مجموعة بيانات MSRA-TD500. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/MhLiao/DB

كشف النص المُشاهد في الزمن الفعلي باستخدام التبديل القابل للتفاضل | أحدث الأوراق البحثية | HyperAI