HyperAIHyperAI
منذ 2 أشهر

التمييز الدلالي المفتوح مع توازن تمثيل الصور

Xiangheng Shan; Dongyue Wu; Guilin Zhu; Yuanjie Shao; Nong Sang; Changxin Gao
التمييز الدلالي المفتوح مع توازن تمثيل الصور
الملخص

التمييز الدلالي المفتوح هو مهمة صعبة تتطلب من النموذج إنتاج أقنعة دلالية للصورة تتجاوز مفردات مجموعة مغلقة. رغم الجهود الكثيرة التي بُذلت لاستخدام نماذج CLIP القوية لإتمام هذه المهمة، إلا أنها لا تزال عرضة للانحراف الزائد نحو فئات التدريب بسبب الفجوات الطبيعية في المعلومات الدلالية بين فئات التدريب والفئات الجديدة. لتجاوز هذا التحدي، نقترح إطارًا جديدًا للتمييز الدلالي المفتوح يُسمى EBSeg، يدمج فيه مفكك التشفير المتوازن بشكل تكيفي (AdaB Decoder) وخسارة ثبات البنية الدلالية (SSC Loss). تم تصميم AdaB Decoder لتوليد تضمينات صورية مختلفة لكل من فئات التدريب والفئات الجديدة. بعد ذلك، يتم موازنة هذين النوعين من التضمينات بشكل تكيفي للاستفادة الكاملة من قدرتهما على التعرف على فئات التدريب وقابلية التعميم للفئات الجديدة. لتعلم بنية دلالية متسقة من CLIP، تقوم خسارة SSC بتوفيق الارتباط بين الفئات في مجال الخصائص الصورية مع ذلك في مجال الخصائص النصية لـ CLIP، مما يحسن قابلية تعميم نموذجنا. بالإضافة إلى ذلك، نستخدم مُشفِّر الصور SAM الثابت لتكميل المعلومات المكانية التي تعاني منها خصائص CLIP بسبب انخفاض دقة صور التدريب والإشراف على مستوى الصورة الموجود في CLIP. أظهرت التجارب الواسعة التي أجريت عبر العديد من مقاييس الأداء أن EBSeg المقترح يتفوق على أفضل الأساليب الحالية. سيتم توفير كودنا والنماذج المدربة هنا: https://github.com/slonetime/EBSeg.