UPANets: التعلم من الشبكات الوحدوية لانتباه البكسل

في مجال تصنيف الصور، سادت الشبكات القائمة على الاتصالات المُتَجاوزة (skip) والاتصالات الكثيفة (densely-connected) في معظم لوحات التصنيف القيادية. في الآونة الأخيرة، وبفضل النجاح الكبير الذي حققته الانتباه متعدد الرؤوس (multi-head attention) في معالجة اللغة الطبيعية، أصبح من المؤكد أن الوقت قد حان لاعتماد نموذج مشابه لنموذج Transformer أو دمج الشبكات العصبية التلافيفية (CNNs) مع تقنيات الانتباه. ومع ذلك، فإن النموذج الأول يتطلب موارد هائلة لتدريبه، بينما يُعد النموذج الثاني في التوازن المثالي في هذا الاتجاه. في هذه الدراسة، لتمكين الشبكات العصبية التلافيفية من معالجة المعلومات المحلية والعالمية معًا، قمنا بتطوير نموذج يُسمى UPANets، والذي يُزود بانتباه حسب القناة (channel-wise attention) وبنية ترابط هجينة مُدمجة من الاتصالات المُتَجاوزة والكثيفة. علاوة على ذلك، تجعل البنية المتصلة بشكل مُفرط (extreme-connection structure) من UPANets أكثر مقاومة، وتوفر سطح خسارة أملس. في التجارب، تفوق UPANets على معظم النماذج الرائدة والشائعة الاستخدام (SOTAs)، بتحقيق دقة بلغت 96.47% على مجموعة بيانات CIFAR-10، و80.29% على CIFAR-100، و67.67% على Tiny ImageNet. والأهم من ذلك، أن هذه الأداء يُحقق كفاءة عالية من حيث عدد المعاملات (parameters efficiency)، وتم تدريبه فقط على وحدة معالجة رسومية واحدة (GPU) مخصصة. نُشِر كود التنفيذ الخاص بـ UPANets على الرابط التالي: https://github.com/hanktseng131415go/UPANets.