Command Palette
Search for a command to run...
التعرف على الصور على نطاق واسع عالي الأداء دون التطبيع
التعرف على الصور على نطاق واسع عالي الأداء دون التطبيع
Andrew Brock Soham De Samuel L. Smith Karen Simonyan
الملخص
يُعد التطبيع الدُفعي (Batch normalization) عنصراً أساسياً في معظم نماذج تصنيف الصور، لكنه يمتلك العديد من الخصائص غير المرغوبة الناتجة عن اعتماده على حجم الدفعة (batch size) والتداخلات بين الأمثلة. وعلى الرغم من النجاحات الحديثة في تدريب شبكات ريسنت العميقة (deep ResNets) دون طبقات التطبيع، إلا أن هذه النماذج لا تحقق دقة الاختبار المُتَوَقَّعة لنماذج التطبيع الدُفعي الأفضل، وغالباً ما تكون غير مستقرة عند استخدام معدلات تعلم كبيرة أو تكبير بيانات قوي. في هذا العمل، نطور تقنية مُعدَّلة للتقليم التدرجي (adaptive gradient clipping) التي تُذِيب هذه الاستقرار، ونُصمم فئة مُحسَّنة بشكل كبير من شبكات ريسنت الخالية من الطبقات التطبيعية (Normalizer-Free ResNets). تُحقق نماذجنا الأصغر دقة اختبار تُعادل دقة EfficientNet-B7 على ImageNet، مع تسريع في التدريب يصل إلى 8.7 مرة، بينما تُحقِّق النماذج الأكبر دقة أعلى على مستوى الحالة الراهنة (state-of-the-art) في التصنيف الأولي (top-1) بـ 86.5%. بالإضافة إلى ذلك، تُظهر النماذج الخالية من الطبقات أداءً أفضل بشكل ملحوظ من نماذج التطبيع الدُفعي عند التخصيص الدقيق (fine-tuning) على ImageNet بعد التدريب المسبق على نطاق واسع باستخدام مجموعة بيانات مكوَّنة من 300 مليون صورة مُوسومة، حيث تُحقِّق أفضل نماذجنا دقة وصلت إلى 89.2%. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/deepmind/deepmind-research/tree/master/nfnets