HyperAIHyperAI
منذ 2 أشهر

إعادة التفكير في هندسة الإنشاء لرؤية الحاسوب

Christian Szegedy; Vincent Vanhoucke; Sergey Ioffe; Jonathon Shlens; Zbigniew Wojna
إعادة التفكير في هندسة الإنشاء لرؤية الحاسوب
الملخص

الشبكات الإدراكية (Convolutional Networks) تشكل جوهر معظم الحلول الرائدة في مجال رؤية الحاسوب لمهام متنوعة. منذ عام 2014، أصبحت الشبكات الإدراكية العميقة جداً شائعة، مما أدى إلى تحقيق مكاسب كبيرة في العديد من المعايير. رغم أن زيادة حجم النموذج وتكلفة الحسابات تميل عادة إلى ترجمة هذه الزيادات إلى مكاسب فورية في الجودة لأغلب المهام (طالما تم توفير بيانات كافية ومصنفة للتدريب)، فإن الكفاءة الحاسوبية وعدد المعلمات المنخفض لا يزالان عاملين ممكّنين لمجموعة متنوعة من الاستخدامات مثل رؤية الهاتف المحمول وسيناريوهات البيانات الضخمة. هنا نستكشف طرقاً لتوسيع نطاق الشبكات بطرق تهدف إلى استخدام الحسابات الإضافية بكفاءة قصوى من خلال التحليل العامل للإدراكيات (Factorized Convolutions) والتنظيم العنيف (Aggressive Regularization). نقيس أساليبنا على مجموعة التحقق من صحة تحدي تصنيف ILSVRC 2012 ونظهر مكاسب كبيرة على أحدث ما وصل إليه العلم: خطأ بنسبة 21.2% في التصنيف الأول و5.6% في التصنيف الخامس عند تقييم الإطار الواحد باستخدام شبكة ذات تكلفة حسابية قدرها خمسة مليارات عملية ضرب وإضافة لكل استدلال ومع استخدام أقل من 25 مليون معلمة. باستخدام مجموعة تتكون من 4 نماذج وتقييم متعدد الأطر، نبلغ عن خطأ بنسبة 3.5% في التصنيف الخامس على مجموعة التحقق من الصلاحية (3.6% خطأ على مجموعة الاختبار) وخطأ بنسبة 17.3% في التصنيف الأول على مجموعة التحقق من الصلاحية.

إعادة التفكير في هندسة الإنشاء لرؤية الحاسوب | أحدث الأوراق البحثية | HyperAI