منذ 3 أشهر

ما وراء البرمائيات: تحسين التوليد النقطي المتعلم بشكل متعدد بين المشتقات لتحسين الت régularisation الفردية

{WonHo Ryu, Sai Chetan Chinthakindi, Akhil Kedia}

الملخص

أدى الخوارزميات التي تعتمد على التعلم التلقائي مثل MAML وReptile وFOMAML إلى تحسين أداء العديد من النماذج العصبية. والاختلاف الرئيسي بين الانحدار القياسي والمناهج المتبعة في التعلم التلقائي يكمن في أن هذه المناهج تحتوي كجزء صغير على مشتقة تُحسّن من حاصل الضرب القياسي بين مشتقات الحزم، مما يؤدي إلى تحسين التعميم. أظهرت الدراسات السابقة أن تقارب المشتقات مرتبط بالتعميم، كما استُخدمت خوارزمية Reptile في بيئة مخصصة لمهام واحدة بهدف تحسين التعميم. مستوحاة من هذه المناهج في بيئة مهام واحدة، تُقترح في هذه الورقة استخدام خوارزمية الفروق المنتهية من الدرجة الأولى لحساب هذه المشتقة من خلال حاصل الضرب القياسي للمشتقات، مما يتيح التحكم الصريح في الوزن النسبي لهذا المكون مقارنة بالمشتقات القياسية. نستخدم هذه المشتقة كتقنية تعميم (Regularization)، مما يؤدي إلى تقارب أكبر بين المشتقات الخاصة بحزم مختلفة. وباستخدام تقريب الفروق المنتهية، لا تعاني طريقة العمل من الاستخدام المفرط للذاكرة من الدرجة O(n²) الناتجة عن حساب هسيان (Hessian) بشكل مباشر، ويمكن تطبيقها بسهولة على النماذج الكبيرة ذات الحزم الكبيرة. تحقق طريقة العمل أداءً متفوّقًا على المستوى الحالي (State-of-the-art) على مجموعة بيانات Gigaword، كما تُظهر تحسينات في الأداء على عدة مجموعات بيانات مثل SQuAD-v2.0 وQuasar-T وNewsQA وجميع مجموعات بيانات SuperGLUE، باستخدام مجموعة متنوعة من النماذج مثل BERT وRoBERTa وELECTRA. كما تتفوّق طريقة العمل على الطرق السابقة مثل Reptile وFOMAML عند استخدامها كتقنية تعميم، سواء في البيئات ذات المهمة الواحدة أو المتعددة المهام. وتمتاز الطريقة بالاستقلال عن النموذج (Model-agnostic)، ولا تضيف أي أوزان قابلة للتدريب إضافية.