HyperAIHyperAI
منذ 3 أشهر

الشبكات العمودية القابلة للعكس

Yuxuan Cai, Yizhuang Zhou, Qi Han, Jianjian Sun, Xiangwen Kong, Jun Li, Xiangyu Zhang
الشبكات العمودية القابلة للعكس
الملخص

نُقدّم نموذجًا جديدًا لتصميم الشبكات العصبية يُسمّى "الشبكة العمودية القابلة للعكس" (Reversible Column Network - RevCol). يتكوّن جوهر RevCol من عدة نسخ من الشبكات الفرعية، تُسمّى "أعمدة" على التوالي، حيث تُطبّق بينها اتصالات قابلة للعكس على مستويات متعددة. يُميّز هذا التصميم RevCol عن الشبكات التقليدية بسلوكه المُختلف تمامًا: أثناء التدفق الأمامي، تُدرَّس الميزات في RevCol لتصبح تدريجيًا أكثر فصلًا عند المرور عبر كل عمود، مع الحفاظ على المعلومات الإجمالية دون ضغطها أو التخلّص منها كما يحدث في الشبكات الأخرى. تشير تجاربنا إلى أن نماذج RevCol ذات هيكل مشابه للشبكات العصبية التلافيفية (CNN) تحقق أداءً متميزًا في مهام متعددة في رؤية الحاسوب، مثل تصنيف الصور، الكشف عن الكائنات، والتقسيم الدلالي، خاصة عند توافر ميزانية كبيرة للبارامترات وبيانات تدريب واسعة. على سبيل المثال، بعد التدريب المسبق على ImageNet-22K، يحقق RevCol-XL دقة قدرها 88.2% على ImageNet-1K. وبزيادة كمية بيانات التدريب المسبق، يصل أكبر نموذج لدينا، RevCol-H، إلى 90.0% على ImageNet-1K، و63.8% APbox على مجموعة التحقق من الكشف في COCO، و61.0% mIoU على تجزئة ADE20k. وبمعرفتنا، يُعد هذا أفضل أداء مسجّل حتى الآن بين النماذج القائمة على الشبكات العصبية التلافيفية البحتة (الثابتة) في مهام الكشف على COCO والتقسيم على ADE20k. علاوةً على ذلك، وباعتباره نموذجًا معماريًا عامًا، يمكن تطبيق RevCol أيضًا في نماذج الـ Transformers أو غيرها من الشبكات العصبية، كما أظهرت التجارب تحسّن الأداء في مهام متعددة في مجالات رؤية الحاسوب واللغة الطبيعية (NLP). نُطلق الكود والنماذج على الرابط التالي: https://github.com/megvii-research/RevCol