Swin Transformer: نموذج رؤية هرمي يعتمد على نوافذ منزاحة

تقدم هذه الورقة نموذجًا جديدًا لشبكة التحويل (Transformer) يُسمى Swin Transformer، والذي يمكنه أن يُستخدم كهيكل أساسي عام لمهام الرؤية الحاسوبية. تنشأ التحديات المتعلقة بتكيف نموذج Transformer من مجال اللغة إلى مجال الرؤية بسبب الفروقات بين المجالين، مثل التباين الكبير في حجم الكيانات البصرية، والدقة العالية للبكسلات في الصور مقارنة بكلمات النص. لمعالجة هذه الفروقات، نقترح نموذجًا هرميًا لـ Transformer يتم فيه حساب التمثيل باستخدام نوافذ مُزَوَّزة (Shifted Windows). يُحسِّن نموذج النوافذ المزَوَّزة الكفاءة من خلال تقييد عملية الانتباه الذاتي إلى نوافذ محلية غير متداخلة، مع السماح في الوقت نفسه بالاتصال بين النوافذ المختلفة. تتميز البنية الهرمية بقدرتها على التمثيل على مقياس متعدد، وتتمتع بتعقيد حسابي خطي بالنسبة لحجم الصورة. تجعل هذه الخصائص Swin Transformer متوافقة مع طيف واسع من مهام الرؤية، بما في ذلك تصنيف الصور (دقة أعلى بنسبة 87.3% على ImageNet-1K) ومهام التنبؤ الكثيف مثل كشف الكائنات (58.7 نقطة AP للصندوق و51.1 نقطة AP للقناع على مجموعة COCO test-dev) وتقسيم الدلالة (53.5 mIoU على مجموعة ADE20K val). تتفوق أداءه على الحالة السابقة من الأداء بفارق كبير بلغ +2.7 نقطة AP للصندوق و+2.6 نقطة AP للقناع على COCO، و+3.2 نقطة mIoU على ADE20K، مما يُظهر الإمكانات الكبيرة لنموذجات Transformer كهياكل أساسية للرؤية الحاسوبية. كما تُثبت التصميم الهرمي ونهج النافذة المزَوَّزة فوائد كبيرة أيضًا على الهياكل التي تعتمد بالكامل على MLP. تم إتاحة الكود والنماذج بشكل عام عبر الرابط التالي: \url{https://github.com/microsoft/Swin-Transformer}.