النموذج كاستعلام للفئة القليلة من التجزئة الدلالية

تم اقتراح التجزئة الدلالية ذات القليل من الأمثلة (FSS) لتمييز الفئات غير المرئية في صورة الاستعلام، وذلك بالاعتماد فقط على عدد قليل من الأمثلة المُعلَّمة تُعرف بـ"صور الدعم". إحدى الخصائص المميزة لـ FSS هي عدم الاتساق المكاني بين الأهداف في صور الاستعلام وصور الدعم، مثل النسيج أو المظهر. ويُعد هذا التحدي كبيرًا على قدرة الطرق المستخدمة في FSS على التعميم، حيث يتطلب استغلالًا فعّالًا للعلاقة بين صورة الاستعلام وأمثلة الدعم. تعتمد معظم الطرق الحالية على استخلاص ميزات صور الدعم إلى متجهات بروتوكولية (Prototype Vectors)، ثم تنفيذ التفاعل مع ميزات صورة الاستعلام باستخدام معامل التشابه الجيبي أو دمج الميزات. لكن هذا التفاعل البسيط قد لا يُمكنه التقاط التفاصيل المكانية في ميزات الاستعلام. ولتخفيف هذه القيود، استخدمت بعض الطرق معلومات الدعم بكاملها على مستوى البكسل من خلال حساب الارتباطات البكسلية بين ميزات الاستعلام وصور الدعم، باستخدام آلية الانتباه في نموذج Transformer. ومع ذلك، تعاني هذه النماذج من حمل حسابي كبير ناتج عن انتباه المنتج النقطي بين جميع البكسلات في ميزات الدعم والاستعلام. في هذه الورقة، نقترح إطارًا بسيطًا ولكن فعّالًا مبنيًا على Transformer يُسمى ProtoFormer، والذي يهدف إلى استغلال التفاصيل المكانية في ميزات الاستعلام بشكل كامل. يُنظر إلى البروتوكول المُستخلص للصورة المستهدفة في ميزات الدعم على أنه "الاستعلام" (Query)، بينما تُعتبر ميزات الاستعلام هي "المفتاح" (Key) و"القيمة" (Value) في الإدخال إلى مُفكّك Transformer. وبهذا، يمكن التقاط التفاصيل المكانية بشكل أفضل، وتركيز الانتباه على الميزات الدلالية للصورة المستهدفة في صورة الاستعلام. ويمكن اعتبار المخرجات الناتجة من الوحدة القائمة على Transformer كـ "نُوى ديناميكية مُتَحَسِّسة للدلالات" (semantic-aware dynamic kernels)، والتي تُستخدم لاستخلاص قناع التجزئة من ميزات الاستعلام المُحسّنة. أظهرت التجارب الواسعة على مجموعتي بيانات PASCAL-$5^{i}$ وCOCO-$20^{i}$ أن ProtoFormer يُقدّم تقدمًا ملحوظًا على أحدث الطرق المُعتمدة في هذا المجال.