ResNeSt: شبكات الانتباه المنفصلة

من المعروف جيدًا أن انتباه خريطة الميزات (featuremap attention) والتمثيل متعدد المسارات (multi-path representation) لهما أهمية كبيرة في التعرف البصري. في هذه الورقة، نقدّم معمارية مُكوَّنة بشكل منفصل (modularized architecture)، تطبّق انتباه حسب القنوات (channel-wise attention) على فروع الشبكة المختلفة، بهدف الاستفادة من نجاحها في التقاط التفاعلات المتقاطعة بين الميزات وتعلم تمثيلات متنوعة. يؤدي تصميمنا إلى كتلة حسابية بسيطة ومتميزة، يمكن برمجتها باستخدام عدد قليل جدًا من المتغيرات. ويتفوّق نموذجنا، المُسمّى ResNeSt، على EfficientNet من حيث التوازن بين الدقة والتأخير (accuracy and latency trade-off) في تصنيف الصور. علاوةً على ذلك، حقق ResNeSt نتائج متفوّقة في التعلم المن転 (transfer learning) على عدة معايير عامة كمُكوّن أساسي (backbone)، وقد تم اعتماده من قبل الفرق الفائزة في تحدي COCO-LVIS. ومتاح بشكل عام رمز المصدر لنظام كامل والنماذج المُدرّبة مسبقًا.