منذ 3 أشهر

الانتباه الذاتي المركزي للتفاعلات المحلية-الشاملة في نماذج التحويل البصري

Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao

الملخص

في الآونة الأخيرة، أظهرت نماذج "مُحول الرؤية" (Vision Transformer) ومشتقاتها إمكانات كبيرة في مجموعة متنوعة من مهام الرؤية الحاسوبية. يُعدّ القدرة على التقاط الاعتماديات البصرية القصيرة والطويلة المدى من خلال الانتباه الذاتي (self-attention) المصدر الرئيسي للنجاح، لكنها تفرض أيضًا تحديات ناتجة عن التكلفة الحسابية التربيعية، خاصة في المهام ذات الدقة العالية (مثل كشف الكائنات). في هذا البحث، نقدّم آلية جديدة تُسمى "الانتباه المركّز" (focal self-attention)، التي تدمج التفاعلات الدقيقة الموضعية مع التفاعلات العامة الخشنة. باستخدام هذه الآلية الجديدة، يُراعي كل رمز (token) الرموز المجاورة الأقرب بدقة عالية، بينما يراعي الرموز البعيدة بدقة منخفضة، مما يمكّنه من التقاط الاعتماديات البصرية القصيرة والطويلة المدى بكفاءة وفعالية. وباستخدام الانتباه المركّز، نقترح نموذجًا جديدًا من نماذج "مُحول الرؤية" يُسمى "مُحول المركّز" (Focal Transformer)، والذي يحقق أداءً متفوقًا على أفضل النماذج الحالية في مجموعة من معايير التصنيف الصوتي وكشف الكائنات العامة. وبشكل خاص، تحقق نماذج "مُحول المركّز" ذات الحجم المعتدل (51.1 مليون معلمة) وذات الحجم الأكبر (89.8 مليون معلمة) دقة قصوى تبلغ 83.5 و83.8 على مؤشر Top-1 في تصنيف صور ImageNet عند دقة 224x224. وباستخدام "مُحولات المركّز" كأساس (backbones)، نحصل على تحسينات مستمرة وملحوظة مقارنة بنموذج "Swin Transformers" الحائز على أفضل الأداء الحالي، في ستة أساليب مختلفة لكشف الكائنات، مع تدريب باستخدام جداول قياسية 1x و3x. وتحقق أكبر نموذج من "مُحول المركّز" قياسات 58.7/58.9 في متوسط دقة الصندوق (box mAP) و50.9/51.3 في متوسط دقة القناع (mask mAP) على مجموعة بيانات COCO mini-val/test-dev، و55.4 في متوسط التشابه المتقاطع (mIoU) على ADE20K لتصنيف معنى الصورة، مما يُحدث حالة جديدة من الأداء المتفوق (SoTA) في ثلاث من أصعب مهام الرؤية الحاسوبية.