التحليل البنيوي للدلالات القليلة التكرارية من نص وسم الصورة

يهدف التجزئة الشاملة القائمة على عدد قليل من الأمثلة إلى تعلم تجزئة كائنات فئات غير مرئية باستخدام توجيه صور داعمة فقط بكمية قليلة. تعتمد معظم الطرق السابقة على التسمية على مستوى البكسل للصور الداعمة. في هذه الورقة، نركز على بيئة أكثر تحدّياً، حيث تكون التسميات متاحة فقط على مستوى الصورة. نقترح إطاراً عاماً يُولّد أولاً أقنعة خشنة بمساعدة نموذج الرؤية واللغة القوي CLIP، ثم يُعدّل تنبؤات الأقنعة للصور الداعمة والصور الاستقصائية بشكل تكراري وتبادلية. أظهرت التجارب الواسعة على مجموعتي بيانات PASCAL-5i وCOCO-20i أن طريقة التحليل لدينا تتفوّق بفارق كبير على أحدث الطرق المُعَلّمة بشكل ضعيف، كما تحقق نتائج مماثلة أو أفضل من الطرق المُعَلّمة الحديثة. علاوة على ذلك، تمتلك طريقة التحليل لدينا قدرة استيعابية ممتازة على الصور الواقعية والكائنات النادرة. سيتم إتاحة الكود على الرابط: https://github.com/Whileherham/IMR-HSNet.