منذ 7 أشهر

الملخص

التعرف على النصوص متعددة الأحرف بشكل عشوائي في الصور الطبيعية غير المقيدة هو مشكلة صعبة. في هذا البحث، نتناول مشكلة فرعية مماثلة في هذا المجال، وهي التعرف على الأرقام متعددة الأرقام بشكل عشوائي من صور وجهات النظر الشارعية (Street View). الأساليب التقليدية لحل هذه المشكلة تفصل عادةً بين خطوات التوطين والتقسيم والتعرف. في هذا البحث، نقترح نهجًا موحدًا يدمج هذه الخطوات الثلاث من خلال استخدام شبكة عصبية عميقة ذات طبقات متعددة تعمل مباشرة على بيكسلات الصورة. نستخدم تنفيذ DistBelief للشبكات العصبية العميقة لتدريب شبكات عصبية كبيرة وموزعة على صور عالية الجودة. نجد أن أداء هذا النهج يزداد مع زيادة عمق الشبكة التلافيفية، حيث كان أفضل أداءً في أعمق هندسة دربناها والتي تحتوي على أحد عشر طبقة خفية. قمنا بتقييم هذا النهج على مجموعة البيانات العامة SVHN وحققنا دقة تزيد عن 96٪ في التعرف على الأرقام الشارعية الكاملة. كما أظهرنا أننا نحسن على الحالة المعاصرة لأفضل مستوى في مهمة التعرف على كل رقم منفرد، حيث حققنا دقة تبلغ 97.84٪. كما قمنا بتقييم هذا النهج أيضًا على مجموعة بيانات أكثر تحديًا تم إنشاؤها من صور وجهات النظر الشارعية التي تحتوي على عدة ملايين من شروحات الأرقام الشارعية وحققنا دقة تزيد عن 90٪. لاستكشاف مدى قابلية النظام المقترح للتطبيق في مهام التعرف على النصوص أوسع نطاقًا، طبقناه على النصوص المشوهة الاصطناعية من reCAPTCHA. يعتبر reCAPTCHA أحد أكثر اختبارات تيرينغ العكسية أمانًا التي تستخدم النصوص المشوهة لتمييز البشر عن الروبوتات. قدمنا نسبة دقة تبلغ 99.8٪ في الفئة الأكثر صعوبة من reCAPTCHA. تشير تقييماتنا لكلا المهمتين إلى أنه عند حدود التشغيل المحددة، يكون أداء النظام المقترح مكافئًا وفي بعض الحالات يتفوق على أداء المشغلين البشريين.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Ian J. Goodfellow Yaroslav Bulatov Julian Ibarz Sacha Arnoud Vinay Shet

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ian J. Goodfellow Yaroslav Bulatov Julian Ibarz Sacha Arnoud Vinay Shet

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ian J. Goodfellow Yaroslav Bulatov Julian Ibarz Sacha Arnoud Vinay Shet

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الأرقام المتعددة من صور المناظر الشارعية باستخدام شبكات العصبي العميق ذات الطبقات التلافيفية

Ian J. Goodfellow Yaroslav Bulatov Julian Ibarz Sacha Arnoud Vinay Shet

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الأرقام المتعددة من صور المناظر الشارعية باستخدام شبكات العصبي العميق ذات الطبقات التلافيفية

Ian J. Goodfellow Yaroslav Bulatov Julian Ibarz Sacha Arnoud Vinay Shet

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف على الأرقام المتعددة من صور المناظر الشارعية باستخدام شبكات العصبي العميق ذات الطبقات التلافيفية

Ian J. Goodfellow Yaroslav Bulatov Julian Ibarz Sacha Arnoud Vinay Shet

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters