منذ 2 أشهر

مُحسِّن النظَر إلى الأمام: خطوة واحدة للخلف بعد كل k خطوات للأمام

Michael R. Zhang; James Lucas; Geoffrey Hinton; Jimmy Ba

الملخص

الغالبية العظمى من الشبكات العصبية العميقة الناجحة يتم تدريبها باستخدام نسخ متنوعة من خوارزميات التدرج العشوائي المتناقص (SGD). المحاولات الحديثة لتحسين SGD يمكن تصنيفها بشكل عام إلى طريقتين: (1) خطط معدل التعلم التكيفية، مثل AdaGrad وAdam، و(2) الخطط المتسارعة، مثل زخم الكرة الثقيلة وزخم Nesterov. في هذا البحث، نقترح خوارزمية تحسين جديدة تسمى Lookahead، والتي تكون متعامدة مع هذه الأساليب السابقة وتقوم بتحديث مجموعتين من الأوزان بشكل متكرر. بشكل حدسي، تقوم الخوارزمية باختيار اتجاه البحث عن طريق النظر إلى الأمام في سلسلة الأوزان السريعة التي يولدتها مُحسّن آخر. نوضح أن Lookahead تحسن استقرار التعلم وتقلل من تباين مُحسّنها الداخلي بأعباء حسابية وذاكرة قليلة جداً. نثبت بالتجربة أن Lookahead يمكن أن تحسن بشكل كبير أداء SGD وAdam، حتى مع إعدادات المعلمات الأولية الافتراضية على ImageNet وCIFAR-10/100 والترجمة الآلية للشبكات العصبية ومجموعة بيانات Penn Treebank.