HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الأرقام المتعددة من صور المناظر الشارعية باستخدام شبكات العصبي العميق ذات الطبقات التلافيفية

Ian J. Goodfellow Yaroslav Bulatov Julian Ibarz Sacha Arnoud Vinay Shet

الملخص

التعرف على النصوص متعددة الأحرف بشكل عشوائي في الصور الطبيعية غير المقيدة هو مشكلة صعبة. في هذا البحث، نتناول مشكلة فرعية مماثلة في هذا المجال، وهي التعرف على الأرقام متعددة الأرقام بشكل عشوائي من صور وجهات النظر الشارعية (Street View). الأساليب التقليدية لحل هذه المشكلة تفصل عادةً بين خطوات التوطين والتقسيم والتعرف. في هذا البحث، نقترح نهجًا موحدًا يدمج هذه الخطوات الثلاث من خلال استخدام شبكة عصبية عميقة ذات طبقات متعددة تعمل مباشرة على بيكسلات الصورة. نستخدم تنفيذ DistBelief للشبكات العصبية العميقة لتدريب شبكات عصبية كبيرة وموزعة على صور عالية الجودة. نجد أن أداء هذا النهج يزداد مع زيادة عمق الشبكة التلافيفية، حيث كان أفضل أداءً في أعمق هندسة دربناها والتي تحتوي على أحد عشر طبقة خفية. قمنا بتقييم هذا النهج على مجموعة البيانات العامة SVHN وحققنا دقة تزيد عن 96٪ في التعرف على الأرقام الشارعية الكاملة. كما أظهرنا أننا نحسن على الحالة المعاصرة لأفضل مستوى في مهمة التعرف على كل رقم منفرد، حيث حققنا دقة تبلغ 97.84٪. كما قمنا بتقييم هذا النهج أيضًا على مجموعة بيانات أكثر تحديًا تم إنشاؤها من صور وجهات النظر الشارعية التي تحتوي على عدة ملايين من شروحات الأرقام الشارعية وحققنا دقة تزيد عن 90٪. لاستكشاف مدى قابلية النظام المقترح للتطبيق في مهام التعرف على النصوص أوسع نطاقًا، طبقناه على النصوص المشوهة الاصطناعية من reCAPTCHA. يعتبر reCAPTCHA أحد أكثر اختبارات تيرينغ العكسية أمانًا التي تستخدم النصوص المشوهة لتمييز البشر عن الروبوتات. قدمنا نسبة دقة تبلغ 99.8٪ في الفئة الأكثر صعوبة من reCAPTCHA. تشير تقييماتنا لكلا المهمتين إلى أنه عند حدود التشغيل المحددة، يكون أداء النظام المقترح مكافئًا وفي بعض الحالات يتفوق على أداء المشغلين البشريين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعرف على الأرقام المتعددة من صور المناظر الشارعية باستخدام شبكات العصبي العميق ذات الطبقات التلافيفية | مستندات | HyperAI