HyperAIHyperAI
منذ 2 أشهر

sharpDARTS: بحث أسرع وأكثر دقة في الهياكل القابلة للتفاضل

Andrew Hundt; Varun Jain; Gregory D. Hager
sharpDARTS: بحث أسرع وأكثر دقة في الهياكل القابلة للتفاضل
الملخص

البحث عن الهندسة العصبية (Neural Architecture Search - NAS) كان مصدرًا للتحسينات الدراماتيكية في تصميم الشبكات العصبية، حيث حققت النتائج الحديثة أداءً يساوي أو يتفوق على الأداء الذي تم ضبطه يدويًا. ومع ذلك، فإن فهمنا لكيفية تمثيل مجال البحث عن هندسة الشبكات العصبية وكيفية البحث في هذا المجال بكفاءة لا يزال في مراحله الأولى.أجرينا تحليلًا عميقًا لتحديد القيود في مجال بحث شائع الاستخدام وفي طريقة بحث حديثة عن الهندسة، وهي طريقة البحث عن الهندسة القابلة للمفاضلة (Differentiable Architecture Search - DARTS). أدت هذه النتائج إلى تقديم كتل شبكة جديدة ذات تصميم أكثر عمومية وتوازنًا واتساقًا؛ جدول معدل التعلم المحسّن "التقليص القوسي للقوة" (Cosine Power Annealing)؛ وغيرها من التحسينات. أصبح بحث sharpDARTS الناتج أسرع بنسبة 50% مع تحسن نسبي بنسبة 20-30% في خطأ النموذج النهائي على مجموعة بيانات CIFAR-10 مقارنة بـ DARTS. بلغ خطأ التحقق من أفضل تشغيل لنماذجنا الفردية 1.93% (1.98±0.07) على CIFAR-10 وخطأ قدره 5.5% (5.8±0.3) على مجموعة الاختبار CIFAR-10.1 التي تم إصدارها مؤخرًا. حسب علمنا، تعتبر كلتا النتيجتين الأفضل من نوعها بالنسبة للنماذج المتشابهة الحجم. كما أن هذا النموذج يتميز بالتنافسية عند تعميمه على ImageNet بمعدل خطأ قدره 25.1% في المرتبة الأولى (7.8% في المرتبة الخامسة).وجدنا تحسينات لمجالات البحث الموجودة، ولكن هل يمكن لـ DARTS أن تتعمم إلى مجالات جديدة؟ نقترح البحث عن الشبكة الفائقة القابل للمفاضلة (Differentiable Hyperparameter Grid Search) ومجال البحث HyperCuboid، وهما تمثيلان صُمما للاستفادة من DARTS في تحسين المعلمات بشكل أكثر عمومية. هنا اكتشفنا أن DARTS فشلت في التعمم عند مقارنتها مع اختيار نموذج واحد من قبل البشر. راجعنا مجالات البحث DARTS وsharpDARTS لفهم السبب، وكشفت دراسة الإزالة وجود فجوة تعميم غير عادية. وأخيرًا، نقترح تنظيم Max-W لحل هذه المشكلة، والذي ثبت أنه أفضل بكثير من التصميم اليدوي. سيتم توفير الكود.请注意,某些术语在阿拉伯语中可能没有广泛接受的标准翻译,因此我在翻译时保留了英文原词并加上了注释。例如,“Cosine Power Annealing” 和 “HyperCuboid” 等术语在括号中标注了原文。这样可以确保信息的完整性,并帮助读者更好地理解这些专业术语。