HyperAIHyperAI

Command Palette

Search for a command to run...

كشف النص المُشاهد في الزمن الفعلي باستخدام التبديل القابل للتفاضل

Minghui Liao Zhaoyi Wan Cong Yao Kai Chen Xiang Bai

الملخص

في الآونة الأخيرة، أصبحت الطرق القائمة على التقسيم شائعة جدًا في كشف النص في المشاهد، نظرًا لأن نتائج التقسيم يمكنها وصف النص في المشاهد بشكل أكثر دقة، بغض النظر عن أشكاله المختلفة مثل النص المنحني. ومع ذلك، فإن المعالجة اللاحقة للتشفير الثنائي (Binarization) تُعد ضرورية للكشف القائم على التقسيم، حيث تقوم بتحويل الخرائط الاحتمالية التي تُنتجها طريقة التقسيم إلى مربعات حدودية أو مناطق نصية. في هذه الورقة، نقترح وحدة تُسمى التشفير القابل للتفاضل (Differentiable Binarization - DB)، التي تُنفذ عملية التشفير الثنائي مباشرة داخل شبكة التقسيم. وبتحسين الشبكة مع وحدة DB، يمكنها ضبط حدود التشفير بشكل تكيفي، مما يبسط المعالجة اللاحقة ويعزز أداء كشف النص في الوقت نفسه. وباستخدام شبكة تقسيم بسيطة، نتحقق من تحسينات الأداء التي يحققها DB على خمسة مجموعات معيارية، حيث يحقق باستمرار نتائج رائدة في مجال دقة الكشف وسرعته. وبشكل خاص، مع استخدام هيكل خفيف الوزن (light-weight backbone)، تصبح التحسينات في الأداء ملحوظة جدًا، مما يمكّننا من تحقيق توازن مثالي بين دقة الكشف والكفاءة. على وجه التحديد، وباستخدام هيكل ResNet-18، يحقق كاشفنا معامل F قدره 82.8، وبمعدل 62 إطارًا في الثانية (FPS) على مجموعة بيانات MSRA-TD500. يمكن الوصول إلى الكود عبر الرابط التالي: https://github.com/MhLiao/DB


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp