الشبكات المُعَدِّلة المركزية

نُقدّم شبكات التحفيز المركزي (FocalNets بالاختصار)، حيث يتم استبدال الانتباه الذاتي (SA) بالكامل بآلية تحفيز مركزية لنموذج تفاعلات الرموز في الرؤية. يتكوّن التحفيز المركزي من ثلاثة مكونات: (1) التحديد الهرمي للسياق، الذي يُنفَّذ باستخدام صف من الطبقات التلافيفية العميقة، لترميز السياقات البصرية من المدى القصير إلى الطويل، (2) التجميع المُتحكم به، الذي يجمع السياقات بشكل انتقائي لكل رمز طلب بناءً على محتواه، و(3) التحفيز العنصري أو التحويل التآلي، الذي يُضَمّن السياق المجمع في الرمز الطلب. تُظهر التجارب الواسعة أن FocalNets تتفوّق على نماذج الانتباه الذاتي الرائدة (مثل Swin وFocal Transformers) بتكاليف حسابية مماثلة في مهام التصنيف الصوري، والكشف عن الكائنات، والتقسيم. بشكل خاص، تحقق FocalNets بحجم صغير وحجم أساسي دقة أعلى بنسبة 82.3% و83.9% على ImageNet-1K. وبعد التدريب المسبق على ImageNet-22K بحلّة 224، تصل إلى دقة أعلى بنسبة 86.5% و87.3% عند التخصيص الدقيق باستخدام دقة 224 و384 على التوالي. عند نقلها إلى مهام تطبيقية لاحقة، تُظهر FocalNets تفوقًا واضحًا. في الكشف عن الكائنات باستخدام Mask R-CNN، تتفوّق FocalNet الأساسية المدربة بخطة 1× على نظيرتها Swin بنسبة 2.1 نقطة، وتفوق حتى Swin المدربة بخطة 3× (49.0 مقابل 48.5). وفي التقسيم الشمولي باستخدام UPerNet، تتفوّق FocalNet الأساسية في التقييم بقياس واحد على Swin بنسبة 2.4، وتفوقها في التقييم متعدد المقاييس (50.5 مقابل 49.7). باستخدام FocalNet كبيرة مع Mask2former، نحقق 58.5 mIoU في التقسيم الشمولي لـ ADE20K، و57.9 PQ في التقسيم الشمولي لـ COCO. وباستخدام FocalNet ضخمة مع DINO، نحقق 64.3 و64.4 mAP على COCO minival وtest-dev على التوالي، مما يُثبّت أحدث نتائج مُتفوّقة على نماذج قائمة على الانتباه الأكبر مثل Swinv2-G وBEIT-3. يمكن الوصول إلى الكود والنقاط المحفوظة عبر الرابط: https://github.com/microsoft/FocalNet.