HyperAIHyperAI
منذ 12 أيام

التحليل البنيوي للدلالات القليلة التكرارية من نص وسم الصورة

Haohan Wang, Liang Liu, Wuhao Zhang, Jiangning Zhang, Zhenye Gan, Yabiao Wang, Chengjie Wang, Haoqian Wang
التحليل البنيوي للدلالات القليلة التكرارية من نص وسم الصورة
الملخص

يهدف التجزئة الشاملة القائمة على عدد قليل من الأمثلة إلى تعلم تجزئة كائنات فئات غير مرئية باستخدام توجيه صور داعمة فقط بكمية قليلة. تعتمد معظم الطرق السابقة على التسمية على مستوى البكسل للصور الداعمة. في هذه الورقة، نركز على بيئة أكثر تحدّياً، حيث تكون التسميات متاحة فقط على مستوى الصورة. نقترح إطاراً عاماً يُولّد أولاً أقنعة خشنة بمساعدة نموذج الرؤية واللغة القوي CLIP، ثم يُعدّل تنبؤات الأقنعة للصور الداعمة والصور الاستقصائية بشكل تكراري وتبادلية. أظهرت التجارب الواسعة على مجموعتي بيانات PASCAL-5i وCOCO-20i أن طريقة التحليل لدينا تتفوّق بفارق كبير على أحدث الطرق المُعَلّمة بشكل ضعيف، كما تحقق نتائج مماثلة أو أفضل من الطرق المُعَلّمة الحديثة. علاوة على ذلك، تمتلك طريقة التحليل لدينا قدرة استيعابية ممتازة على الصور الواقعية والكائنات النادرة. سيتم إتاحة الكود على الرابط: https://github.com/Whileherham/IMR-HSNet.

التحليل البنيوي للدلالات القليلة التكرارية من نص وسم الصورة | أحدث الأوراق البحثية | HyperAI