منذ 4 أشهر

الملخص

لقد حققت الطرق السابقة للكشف عن النص في المشاهد نتائج واعدة عبر مجموعة متنوعة من المعايير المعيارية. ومع ذلك، تُظهر هذه الطرق عادةً ضعف الأداء في المواقف الصعبة، حتى عند استخدام نماذج الشبكات العصبية العميقة، وذلك لأن الأداء العام يُحدَّد من خلال التفاعل بين مراحل متعددة ومكونات مختلفة في سلسلة المعالجة. في هذا العمل، نقترح نموذجًا بسيطًا ولكن قويًا يُحقّق كشفًا سريعًا ودقيقًا للنصوص في المشاهد الطبيعية. يتنبأ النموذج مباشرةً بالكلمات أو سطور النص باتجاهات عشوائية وأشكال رباعية في الصور الكاملة، مع استبعاد الخطوات الوسيطة غير الضرورية (مثل تجميع المرشحات وتقسيم الكلمات)، وذلك باستخدام شبكة عصبية واحدة. تتيح بساطة النموذج تركيز الجهود على تصميم دوال الخسارة وبنية الشبكة العصبية. أظهرت التجارب على مجموعات بيانات قياسية تشمل ICDAR 2015 وCOCO-Text وMSRA-TD500 أن الخوارزمية المقترحة تتفوق بشكل ملحوظ على الطرق الرائدة من حيث الدقة والكفاءة. وفي مجموعة بيانات ICDAR 2015، حققت الخوارزمية المقترحة معدلًا محسوبًا (F-score) قدره 0.7820 بسرعة 13.2 إطارًا في الثانية (fps) بدقة 720 بكسل.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار