شبكة الانتباه المتقاطع المُعدَّلة ذاتيًا للتحليل القليل التدريب

يتمثل المفتاح الناجح في التجزئة ذات العينات القليلة (FSS) في كيفية الاستفادة الفعالة من عينات الدعم. تعتمد معظم الحلول على ضغط ميزات الخلفية الأمامية (FG) للدعم إلى نماذج بروتوكولية، لكنها تفقد بعض التفاصيل المكانية. في المقابل، تستخدم بعض الحلول الانتباه المتقاطع لدمج ميزات الاستعلام مع ميزات الدعم غير المضغوطة للخلفية الأمامية. يمكن دمج الخلفية الأمامية (FG) في الاستعلام مع ميزات الخلفية الأمامية (FG) في الدعم، لكن الخلفية (BG) في الاستعلام لا يمكنها العثور على ميزات مطابقة في الخلفية الأمامية (FG) للدعم، وبالتالي تُدمج مع ميزات غير متشابهة بشكل لا مفر منه. علاوةً على ذلك، وبما أن كل من الخلفية الأمامية (FG) والخلفية (BG) في الاستعلام تُدمجان مع ميزات الخلفية الأمامية (FG) للدعم، فإن كليهما يصبحان متشابكين، مما يؤدي إلى تجزئة غير فعالة. لمعالجة هذه المشكلات، قمنا بتصميم كتلة انتباه متقاطع ذاتية المعايرة (SCCA). لضمان انتباه فعّال قائم على الوحدات (patches)، يتم أولًا تقسيم ميزات الاستعلام والدعم إلى وحدات. ثم صممنا وحدة محاذاة الوحدات لمحاذاة كل وحدة في الاستعلام مع أقرب وحدة مماثلة في الدعم، بهدف تحسين الانتباه المتقاطع. وبشكل خاص، تأخذ SCCA وحدة استعلام كـ Q، وتُجمّع الوحدات من نفس صورة الاستعلام والوحدات المُحاذاة من صورة الدعم كـ K و V. وبهذا الشكل، يتم دمج ميزات الخلفية (BG) في الاستعلام مع ميزات الخلفية (BG) المطابقة (من وحدات الاستعلام)، وبالتالي يتم تخفيف المشكلات المذكورة أعلاه. علاوةً على ذلك، عند حساب SCCA، صممنا آلية جداء جيبي مُدرّجة (scaled-cosine) لاستغلال أفضل لمواصفات الدعم في عملية حساب التشابه. أظهرت التجارب الواسعة على مجموعتي البيانات PASCAL-5^i و COCO-20^i تفوق نموذجنا، حيث حقق مؤشر mIoU في بيئة التجزئة بخمس عينات (5-shot) على COCO-20^i تحسنًا بنسبة 5.6% مقارنة بأفضل النماذج السابقة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/Sam1224/SCCAN.