HyperAI

غروكينج

في مجال التعلم العميق،يشير مصطلح Grokking إلى ظاهرة في عملية تدريب الشبكات العصبية، أي أنه من الممكن تحقيق تعميم جيد بعد فترة طويلة من اختفاء خطأ التدريب. الشيء المثير للاهتمام حول ظاهرة "الغروكينغ" هو أنها ظاهرة ديناميكية - أي أن الفجوة بين خسارة التدريب وخسارة الاختبار موجودة فقط في منتصف التدريب؛ الشبكة القادرة على الفهم سوف تقوم في النهاية بالتعميم بحيث يصبح كل من فقدان التدريب وخسارة الاختبار منخفضين للغاية بحلول نهاية التدريب.

تشير هذه الظاهرة إلى أن الشبكة العصبية قد تتعلم بشكل أساسي بعض الميزات أو الأنماط الأساسية للبيانات في المرحلة الأولية، مما يؤدي إلى انخفاض سريع في خسائر التدريب. في المراحل اللاحقة، تبدأ الشبكة تدريجيًا في فهم الميزات والبنية العميقة للبيانات، وبالتالي فإن خسارة الاختبار ستبدأ في الانخفاض بشكل كبير. وقد تعني هذه الظاهرة انتقال الشبكة من مرحلة تعلم الميزات البسيطة إلى مرحلة تعلم الميزات الأكثر تعقيدًا، أو قد تعكس بعض التغييرات الديناميكية في عملية تعلم الشبكة.

"الاستغراق هو الانتقال من ديناميكيات التدريب الكسولة إلى الديناميكيات الغنية"يقترح البحث أن ظاهرة Grokking (حيث تنخفض خسارة الاختبار لشبكة عصبية بشكل كبير بعد خسارة التدريب) ترجع إلى الانتقال من التدريب "الكسول" الأولي إلى التعلم الغني بالميزات اللاحق. باستخدام الانحدار المتعدد الحدود على شبكة مكونة من طبقتين، يوضح المؤلفون أن الاستيعاب يحدث عندما تنتقل الشبكة من ملاءمة البيانات بالميزات الأولية إلى تعلم ميزات جديدة لتحقيق تعميم أفضل. ويشيرون إلى أن معدل تعلم الميزات والمحاذاة الأولية للميزات هما مفتاح هذا التعميم المتأخر، وهو مفهوم قد يكون قابلاً للتطبيق على الشبكات العصبية الأكثر تعقيدًا.

يمكن اعتبار ظاهرة Grokking بمثابة انتقال من آلية التعلم الأساسية إلى آلية التعلم المميزة.الميزة هي أن خسارة تدريب الشبكة العصبية تنخفض بشكل كبير قبل خسارة الاختبار، وهو ما قد يحدث عندما تتحول الشبكة من ديناميكية التدريب الكسولة إلى وضع التعلم المميز الأكثر ثراءً. يمكن أن يتم تشغيل Grokking عن طريق الانتقال من آلية kernel إلى آلية التعلم المميزة.

مراجع

【1】"الاستغراق هو الانتقال من ديناميكيات التدريب الكسولة إلى الديناميكيات الغنية"——مضمن في ICLR 2024