منذ 7 أيام
gSwin: نموذج رؤية MLP مُدار ببنية هرمية للنافذة المنزاحة
Mocho Go, Hideyuki Tachibana

الملخص
بعد النجاح في مجال اللغة، تم اعتماد آلية الانتباه الذاتي (Transformer) في مجال الرؤية الحاسوبية، وقد حققت نجاحًا كبيرًا مؤخرًا. وبالإضافة إلى ذلك، كمجال آخر، تم استكشاف شبكة المعالجة المتعددة الطبقات (MLP) أيضًا في مجال الرؤية. وقد لاقت هذه المعمارية، بخلاف الشبكات العصبية التلافيفية التقليدية (CNN)، اهتمامًا متزايدًا مؤخرًا، مما أدى إلى اقتراح العديد من الأساليب. وباعتبارها طريقة تجمع بين الكفاءة في عدد المعاملات والأداء العالي، مع الحفاظ على الخصائص المحلية والهيكلية في التعرف على الصور، نقترح نموذج gSwin، الذي يدمج بين الطريقتين: Swin Transformer وgMLP (متعدد الرؤوس). وأظهرنا أن نموذج gSwin يمكنه تحقيق دقة أعلى في ثلاث مهام رؤية، وهي تصنيف الصور، وكشف الكائنات، والتقسيم الدلالي، مقارنةً بنموذج Swin Transformer، مع حجم نموذج أصغر.