التفكيك ذي المفردات المفتوحة مع المعايرة المساعدة بالمعنى

يدرس هذا البحث التجزئة ذات القاموس المفتوح (OVS) من خلال معايرة فضاء التمثيل المعرفة والانحياز الناتج عن المجال باستخدام المُسبق السياقي العام لنموذج CLIP. وباعتبار تمايز المحتوى البصري مع معاني النص غير المحدودة جوهر الفهم في القاموس المفتوح، أصبح هذا التمايز العقبة الرئيسية في هذا المجال. ولحل هذه التحديات، اقترح العديد من الدراسات الحديثة استخدام CLIP كمصنف إضافي، وجمع تنبؤات النموذج مع نتائج تصنيف CLIP. وعلى الرغم من التقدم المهم الذي أحرزته هذه الأساليب، لا تزال أداءات طرق التجزئة ذات القاموس المفتوح في السيناريوهات ذات الصلة غير مرضية مقارنة بالأساليب المدربة تحت إشراف. ونُنسب هذا إلى تأثيرات التمثيل المعرفة (in-vocabulary) وانحياز تنبؤات CLIP الناتج عن المجال. ولحل هذه المشكلة، نقدم شبكة مُعالجة مدعومة بالمعنى (SCAN). في SCAN، نُدمج المُسبق المعنوي العام لنموذج CLIP في تمثيل المقترحات لتجنب التقلص على الفئات المعروفة. علاوةً على ذلك، نطبّق استراتيجية تحوّل سياقي لتقليل نقص السياق العام والضوضاء غير الطبيعية في الخلفية. وبفضل هذه التصاميم، تحقق SCAN أفضل أداء مُسجّل على جميع المعايير الشائعة لتجزئة القاموس المفتوح. بالإضافة إلى ذلك، نركّز أيضًا على مشكلة النظام الحالي لتقييم الأداء، الذي يتجاهل التكرار المعنوي عبر الفئات، ونُقدّم مقياسًا جديدًا يُسمّى "مُعدّل IoU المُوجّه بالمعنى" (SG-IoU).