منذ 6 أشهر

الملخص

أظهرت الطرق القائمة على التدريب من البداية إلى النهاية للكشف عن النص في المشهد، والتي تدمج الكشف والاعتراف، تقدماً كبيراً مؤخراً. ومع ذلك، تستخدم معظم طُرق الكشف عن النص في المشهد ذات الأشكال العشوائية حالياً شبكات اقتراح مناطق (RPN) لإنتاج المقترحات. تعتمد RPN بشكل كبير على مُحاور مصممة يدوياً، وتمثّل مقترحاتها باستخدام مستطيلات محاذاة للمحاور. تُشكّل الأولى صعوبة في التعامل مع حالات النص ذات النسب الطولية المتطرفة أو الأشكال غير المنتظمة، بينما تُعد الثانية مُعرّضة لدمج عدة حالات متقاربة في مقترح واحد، خصوصاً في الحالات التي يكون فيها النص كثيفاً ومُوجهًا بزاوية. ولحل هذه المشكلات، نقترح Mask TextSpotter v3، وهو نظام كشف نص في المشهد يمكن تدريبه من البداية إلى النهاية، يعتمد شبكة اقتراح تجزئة (SPN) بدلاً من RPN. تتميز SPN بكونها خالية من المحاور (anchor-free)، وتُقدّم تمثيلاً دقيقاً للمقترحات ذات الأشكال العشوائية. وبالتالي، فهي تتفوّق على RPN في كشف حالات النص ذات النسب الطولية المتطرفة أو الأشكال غير المنتظمة. علاوة على ذلك، تسمح المقترحات الدقيقة الناتجة عن SPN باستخدام ميزات RoI مُقنّعة (masked RoI features) لفصل الحالات المتقاربة من بعضها. ونتيجة لذلك، يمكن لـ Mask TextSpotter v3 التعامل مع حالات النص ذات النسب الطولية المتطرفة أو الأشكال غير المنتظمة، دون أن تتأثر دقة الاعتراف بالنصوص المجاورة أو بالضوضاء الخلفية. وبشكل محدد، تفوقنا على أحدث الطرق بـ 21.9% على مجموعة بيانات Rotated ICDAR 2013 (القدرة على التحمل أمام التدوير)، وبنسبة 5.9% على مجموعة بيانات Total-Text (القدرة على التحمل أمام الشكل)، وحققنا الأداء الأفضل على مستوى العالم على مجموعة بيانات MSRA-TD500 (القدرة على التحمل أمام النسب الطولية). يمكن الوصول إلى الكود من خلال: https://github.com/MhLiao/MaskTextSpotterV3

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Mask TextSpotter v3: شبكة اقتراح التجزئة للكشف الموثوق عن النص في المشاهد

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Mask TextSpotter v3: شبكة اقتراح التجزئة للكشف الموثوق عن النص في المشاهد

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Mask TextSpotter v3: شبكة اقتراح التجزئة للكشف الموثوق عن النص في المشاهد

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters