CCNet: انتباه متقاطع للتمييز الدلالي

المعلومات السياقية ضرورية في مشاكل الفهم البصري، مثل التجزئة الدلالية وكشف الأشياء. نقترح شبكة متقاطعة (Criss-Cross Network - CCNet) للحصول على المعلومات السياقية لصورة كاملة بطريقة فعالة وسليمة للغاية. بوضوح، لكل بكسل، يتم جمع المعلومات السياقية لجميع البكسلات على مساره المتقاطع من خلال وحدة انتباه جديدة تسمى وحدة الانتباه المتقاطع. عن طريق إجراء عملية متكررة إضافية، يمكن لكل بكسل أخيرًا التقاط الارتباطات في صورة كاملة. بالإضافة إلى ذلك، تم اقتراح خسارة متسقة مع الفئات لتعزيز قدرة وحدة الانتباه المتقاطع على إنتاج ميزات أكثر تمييزًا. بشكل عام، تتميز CCNet بالفوائد التالية: 1) صديقة لذاكرة GPU. مقارنة بكتلة غير المحلية (non-local block)، تتطلب الوحدة المتكررة الجديدة للانتباه المتقاطع استخدام ذاكرة GPU أقل بمقدار 11 مرة. 2) كفاءة حسابية عالية. يقلل الانتباه المتكرر المتقاطع من عدد العمليات العائمة (FLOPs) بنسبة حوالي 85% مقارنة بكتلة غير المحلية. 3) الأداء الرائد في المجال. أجرينا تجارب واسعة النطاق على مقاييس التجزئة الدلالية بما في ذلك Cityscapes و ADE20K ومقياس تقسيم الإنسان LIP ومقياس تقسيم الحالة COCO ومقياس تقسيم الفيديو CamVid. بشكل خاص، حققت شبكتنا CCNet درجات mIoU بلغت 81.9٪ و 45.76٪ و 55.47٪ على مجموعة اختبار Cityscapes ومجموعة التحقق ADE20K ومجموعة التحقق LIP على التوالي، وهي نتائج رائدة جديدة في المجال. يمكن الحصول على الكود المصدر من الرابط \url{https://github.com/speedinghzl/CCNet}.