موجانيت: شبكة تجميع مهيكلة من رتب متعددة

من خلال تعميم النواة قدر الإمكان، أظهرت الشبكات العصبية التلافيفية الحديثة إمكانات كبيرة في مهام الرؤية الحاسوبية. ومع ذلك، أظهرت التطورات الحديثة المتعلقة بالتفاعل ذي الدرجة المتعددة في الشبكات العصبية العميقة (DNNs) وجود عائق في التمثيل داخل الشبكات العصبية التلافيفية الحديثة، حيث لم تُشَكَّل التفاعلات التعبيرية بشكل فعّال مع زيادة حجم النواة. لمواجهة هذه التحديات، نقترح عائلة جديدة من الشبكات العصبية التلافيفية الحديثة، تُسمّى MogaNet، لتعلم التمثيل البصري التمييزي في النماذج القائمة بالكامل على الشبكات التلافيفية، مع تحقيق توازن ممتاز بين التعقيد والأداء. تمّ تضمين MogaNet لوحدة مدمجة تجمع بين عمليات تلافيف بسيطة مفاهيمياً ولكنها فعّالة، وعمليات تجميع مُوجَّهة (gated aggregation)، حيث يتم جمع الميزات التمييزية بكفاءة وسياقتها بشكل تكيفي. تُظهر MogaNet قابلية توسع كبيرة، وكفاءة ممتازة في استخدام المعلمات، وأداءً تنافسياً مقارنةً بأفضل الشبكات الحالية من نوع ViT وConvNet على مجموعة بيانات ImageNet وسلسلة من المهام البصرية التالية، بما في ذلك كشف الكائنات في COCO، وتقسيم المعنى في ADE20K، وتقدير وضع الإنسان ثنائي وثلاثي الأبعاد، وتوقع الفيديو. وبشكل لافت، حققت MogaNet دقة 80.0% و87.8% باستخدام 5.2 مليون و181 مليون معلمة على ImageNet-1K، متفوقةً على ParC-Net وConvNeXt-L، مع خفض 59% من العمليات الحسابية (FLOPs) و17 مليون معلمة على التوالي. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/Westlake-AI/MogaNet.