منذ 2 أشهر
تعلم الخصائص العميقة للتمييز المكاني
Bolei Zhou; Aditya Khosla; Agata Lapedriza; Aude Oliva; Antonio Torralba

الملخص
في هذا العمل، نعيد النظر في طبقة التجميع الشامل (global average pooling layer) المقترحة في [13]، ونسلط الضوء على كيفية تمكينها للشبكة العصبية التلافيفية من الحصول على قدرة توطين ملحوظة رغم تدريبها باستخدام علامات صورية (image-level labels). بينما كان هذا التقنية مقترحاً سابقاً كوسيلة لتنظيم التدريب، نجد أنه يبني في الواقع تمثيلاً عميقاً قابلاً للتوطين يمكن تطبيقه على مجموعة متنوعة من المهام. رغم البساطة الظاهرة لعملية التجميع الشامل، نتمكن من تحقيق خطأ بنسبة 37.1% في المرتبة الخامسة لأهداف التوطين على ILSVRC 2014، وهو ما يقترب بشكل ملحوظ من نسبة الخطأ 34.2% في المرتبة الخامسة التي حققها نهج CNN بالرقابة الكاملة. نثبت أن شبكتنا قادرة على تحديد المناطق الصورية المميزة في مجموعة متنوعة من المهام رغم عدم تدريبها عليها.