ReCo: استرجاع و تقسيم مشترك للنقل بدون تدريب مسبق

التمييز الدلالي له تطبيقات واسعة، ولكن تأثيره في العالم الحقيقي قد تم حده بشكل كبير بسبب التكاليف الباهظة للتصنيف اللازمة لتمكين الانتشار. يمكن للطرق التي تتجاوز الإشراف أن تتخطى هذه التكاليف، لكنها تظهر متطلباً غير مريح يتمثل في ضرورة تقديم أمثلة مصنفة من التوزيع المستهدف لتسمية التنبؤات. أما الخط الأльтيراني من الأعمال في التدريب المسبق للصورة واللغة فقد أظهر مؤخراً إمكانية إنتاج نماذج قادرة على تسمية المفاهيم عبر مفردات كبيرة من المفاهيم وتمكين النقل بدون إشراف للتصنيف، ولكنها لا تظهر قدرات تقسيم متناسبة. في هذا العمل، نسعى لتحقيق اندماج بين هذين النهجين يجمع قواهما. نستفيد من قدرات الاسترجاع لنموذج تمرينه مسبقًا بالصورة واللغة مثل CLIP (كليب) لجمع مجموعات تدريب ديناميكية من الصور غير المصنفة لأي مجموعة من أسماء المفاهيم، ونستفيد من العلاقات القوية التي توفرها التمثيلات الحديثة للصور لتقسيم الكيانات بشكل مشترك بين المجموعات الناتجة. ثم يتم استخدام مجموعات التقسيم الصناعية لبناء نموذج تقسيم (بدون الحاجة إلى تصنيف البكسل) الذي يستمد معرفته بالمفاهيم من عملية التدريب القابلة للتوسع في CLIP (كليب). نثبت أن نهجنا، الذي يُطلق عليه استرجاع وتقسيم مشترك (ReCo) (ريكو)، يؤدي بشكل أفضل من طرق التقسيم بدون إشراف مع الحفاظ على سهولة التنبؤات القابلة للتسمية والنقل بدون إشراف. كما نثبت قدرة ReCo (ريكو) على إنشاء تقسيمات متخصصة للأجسام النادرة للغاية.