نحو تدريب أسرع لشبكات التجميع الكوواريانت العالمية من خلال التطبيع الجذري المربع المتكرر

حققت تقنية التجميع الشامل باستخدام المصفوفات المشتركة (Global Covariance Pooling) في شبكات العصبونات المتكررة تحسينًا ملحوظًا مقارنة بالتجميع من الدرجة الأولى الكلاسيكي. وقد أظهرت الأبحاث الحديثة أن التطبيع باستخدام الجذر التربيعي للمصفوفة يلعب دورًا محوريًا في تحقيق أفضل الأداء. ومع ذلك، تعاني الأساليب الحالية من عدم كفاءة التدريب بسبب الدعم المحدود لتحليل القيم الذاتية (EIG) وتحليل القيم الفردية (SVD) على وحدات معالجة الرسومات (GPU). بهدف حل هذه المشكلة، نقترح طريقة تكرارية لتطبيع الجذر التربيعي للمصفوفة تسهل التدريب السريع والشامل لنماذج التجميع الشامل باستخدام المصفوفات المشتركة. في صميم طرحتنا يوجد طبقة متقدمة مصممة ببنية رسم متجه دوري مدمج. تتكون هذه الطبقة المتقدمة من ثلاث طبقات غير خطية متتابعة، تقوم كل منها بالتطبيع الأولي، والتفاعل المرتبط بالمصفوفة، والتعويض النهائي على التوالي. تكون طريقتنا أسرع بكثير من الأساليب التي تعتمد على EIG أو SVD، حيث أنها تتضمن فقط عمليات ضرب المصفوفات، مما يجعلها مناسبة للتنفيذ المتوازي على GPU. بالإضافة إلى ذلك، يمكن للشبكة المقترحة ذات بنية ResNet أن تتقارب بعد عدد أقل بكثير من العصور (epochs)، مما يسرع عملية تدريب الشبكة بشكل أكبر. على مجموعة بيانات ImageNet الضخمة، حققنا أداءً تنافسيًا يتفوق على النماذج الموجودة حاليًا. ومن خلال التعديل الدقيق للنماذج التي تم تدريبها مسبقًا على ImageNet، أقمنا نتائجًا رائدة في ثلاثة مقاييس دقيقة ومحددة للتصنيف الدقيق. سيتم توفير الكود المصدر والنماذج الشبكية عبر الرابط: http://www.peihuali.org/iSQRT-COV