HyperAIHyperAI
منذ 2 أشهر

ProxylessNAS: البحث المباشر عن هندسة الشبكة العصبية على المهمة والجهاز المستهدفين

Han Cai; Ligeng Zhu; Song Han
ProxylessNAS: البحث المباشر عن هندسة الشبكة العصبية على المهمة والجهاز المستهدفين
الملخص

البحث عن الهندسة المعمارية العصبية (Neural Architecture Search - NAS) له تأثير كبير من خلال تصميم هندسات شبكة عصبية فعالة بشكل تلقائي. ومع ذلك، فإن الطلب الحاسوبي الباهظ للخوارزميات التقليدية لـ NAS (مثل 10,000 ساعة معالجة وحدة المعالجة الرسومية - GPU hours) يجعل من الصعب البحث مباشرةً عن هذه الهندسات في المهام الكبيرة الحجم (مثل ImageNet). يمكن لـ NAS القابل للتفرقة (Differentiable NAS) تقليل تكلفة ساعات GPU من خلال تمثيل مستمر للهندسة المعمارية للشبكة، ولكنه يعاني من مشكلة استهلاك ذاكرة GPU العالي (يزداد بشكل خطي بالنسبة لحجم مجموعة المرشحين). نتيجة لذلك، يحتاجون إلى استخدام مهام بديلة (proxy tasks)، مثل التدريب على مجموعة بيانات أصغر، أو التعلم باستخدام عدد قليل من الكتل فقط، أو التدريب لمدة بضع دورات فقط. لا يتم ضمان أن تكون هذه الهندسات التي تم تحسينها على المهام البديلة مثلى للمهمة المستهدفة.في هذا البحث، نقدم \emph{ProxylessNAS} الذي يمكنه التعلم مباشرةً على الهندسات الخاصة بالمهام الكبيرة الحجم والمنصات المادية المستهدفة. نعالج مشكلة استهلاك الذاكرة العالي في NAS القابل للتفرقة ونخفض التكلفة الحاسوبية (ساعات GPU وذاكرة GPU) إلى نفس مستوى التدريب العادي بينما لا يزال يسمح بمجموعة مرشحين كبيرة. تظهر التجارب على CIFAR-10 وImageNet فعالية المباشرية والتخصص. على CIFAR-10، حقق نموذجنا خطأ اختبار بنسبة 2.08٪ مع وجود 5.7 مليون معلمة فقط، وهو أفضل من أفضل هندسة معمارية سابقة وهي AmoebaNet-B، مع استخدام 6 أضعاف أقل عددًا من المعلمات. وعلى ImageNet، حقق نموذجنا دقة أعلى بنسبة 3.1٪ في تصنيف الصورة الأولي مقارنة بـ MobileNetV2، بينما كان أسرع بمقدار 1.2 ضعف عند قياس زمن الاستجابة لـ GPU. كما طبقنا ProxylessNAS لتخصيص هندسات الشبكات العصبية للأجهزة باستخدام مقاييس الأجهزة المباشرة (مثل زمن الاستجابة)، وقدمت رؤى حول تصميم هندسة CNN الفعال.

ProxylessNAS: البحث المباشر عن هندسة الشبكة العصبية على المهمة والجهاز المستهدفين | أحدث الأوراق البحثية | HyperAI