HyperAIHyperAI
منذ 2 أشهر

التعرف على الأرقام المتعددة من صور المناظر الشارعية باستخدام شبكات العصبي العميق ذات الطبقات التلافيفية

Ian J. Goodfellow; Yaroslav Bulatov; Julian Ibarz; Sacha Arnoud; Vinay Shet
التعرف على الأرقام المتعددة من صور المناظر الشارعية باستخدام شبكات العصبي العميق ذات الطبقات التلافيفية
الملخص

التعرف على النصوص متعددة الأحرف بشكل عشوائي في الصور الطبيعية غير المقيدة هو مشكلة صعبة. في هذا البحث، نتناول مشكلة فرعية مماثلة في هذا المجال، وهي التعرف على الأرقام متعددة الأرقام بشكل عشوائي من صور وجهات النظر الشارعية (Street View). الأساليب التقليدية لحل هذه المشكلة تفصل عادةً بين خطوات التوطين والتقسيم والتعرف. في هذا البحث، نقترح نهجًا موحدًا يدمج هذه الخطوات الثلاث من خلال استخدام شبكة عصبية عميقة ذات طبقات متعددة تعمل مباشرة على بيكسلات الصورة. نستخدم تنفيذ DistBelief للشبكات العصبية العميقة لتدريب شبكات عصبية كبيرة وموزعة على صور عالية الجودة. نجد أن أداء هذا النهج يزداد مع زيادة عمق الشبكة التلافيفية، حيث كان أفضل أداءً في أعمق هندسة دربناها والتي تحتوي على أحد عشر طبقة خفية. قمنا بتقييم هذا النهج على مجموعة البيانات العامة SVHN وحققنا دقة تزيد عن 96٪ في التعرف على الأرقام الشارعية الكاملة. كما أظهرنا أننا نحسن على الحالة المعاصرة لأفضل مستوى في مهمة التعرف على كل رقم منفرد، حيث حققنا دقة تبلغ 97.84٪. كما قمنا بتقييم هذا النهج أيضًا على مجموعة بيانات أكثر تحديًا تم إنشاؤها من صور وجهات النظر الشارعية التي تحتوي على عدة ملايين من شروحات الأرقام الشارعية وحققنا دقة تزيد عن 90٪. لاستكشاف مدى قابلية النظام المقترح للتطبيق في مهام التعرف على النصوص أوسع نطاقًا، طبقناه على النصوص المشوهة الاصطناعية من reCAPTCHA. يعتبر reCAPTCHA أحد أكثر اختبارات تيرينغ العكسية أمانًا التي تستخدم النصوص المشوهة لتمييز البشر عن الروبوتات. قدمنا نسبة دقة تبلغ 99.8٪ في الفئة الأكثر صعوبة من reCAPTCHA. تشير تقييماتنا لكلا المهمتين إلى أنه عند حدود التشغيل المحددة، يكون أداء النظام المقترح مكافئًا وفي بعض الحالات يتفوق على أداء المشغلين البشريين.