Command Palette
Search for a command to run...
EAST: كاشف نص المشهد الفعّال والدقيق
EAST: كاشف نص المشهد الفعّال والدقيق
الملخص
لقد حققت الطرق السابقة للكشف عن النص في المشاهد نتائج واعدة عبر مجموعة متنوعة من المعايير المعيارية. ومع ذلك، تُظهر هذه الطرق عادةً ضعف الأداء في المواقف الصعبة، حتى عند استخدام نماذج الشبكات العصبية العميقة، وذلك لأن الأداء العام يُحدَّد من خلال التفاعل بين مراحل متعددة ومكونات مختلفة في سلسلة المعالجة. في هذا العمل، نقترح نموذجًا بسيطًا ولكن قويًا يُحقّق كشفًا سريعًا ودقيقًا للنصوص في المشاهد الطبيعية. يتنبأ النموذج مباشرةً بالكلمات أو سطور النص باتجاهات عشوائية وأشكال رباعية في الصور الكاملة، مع استبعاد الخطوات الوسيطة غير الضرورية (مثل تجميع المرشحات وتقسيم الكلمات)، وذلك باستخدام شبكة عصبية واحدة. تتيح بساطة النموذج تركيز الجهود على تصميم دوال الخسارة وبنية الشبكة العصبية. أظهرت التجارب على مجموعات بيانات قياسية تشمل ICDAR 2015 وCOCO-Text وMSRA-TD500 أن الخوارزمية المقترحة تتفوق بشكل ملحوظ على الطرق الرائدة من حيث الدقة والكفاءة. وفي مجموعة بيانات ICDAR 2015، حققت الخوارزمية المقترحة معدلًا محسوبًا (F-score) قدره 0.7820 بسرعة 13.2 إطارًا في الثانية (fps) بدقة 720 بكسل.