RegionCLIP: التدريب المسبق للغة والصورة القائمة على المناطق

تم تحقيق نتائج مذهلة باستخدام التدريب المقارن بين اللغة والصورة (CLIP) على زوج الصور والنصوص في تصنيف الصور، سواء في البيئات ذات الصفر-مُسَلَّم (zero-shot) أو التعلم الناقل (transfer learning). ومع ذلك، نُظهر أن تطبيق هذه النماذج مباشرةً لتحديد مناطق الصورة في مهمة اكتشاف الكائنات يؤدي إلى أداء ضعيف ناتج عن تغير في المجال (domain shift): فقد تم تدريب CLIP على مطابقة الصورة ككل مع وصف نصي، دون اعتبار التوافق الدقيق بين مناطق الصورة والنصوص المقابلة لها. لمعالجة هذه المشكلة، نقترح طريقة جديدة تُسمى RegionCLIP، التي تمدد بشكل كبير نموذج CLIP لتعلم تمثيلات بصرية على مستوى المناطق، مما يمكّن من تحقيق توافق دقيق بين مناطق الصورة والمفاهيم النصية. تعتمد طريقة我们的 على استخدام نموذج CLIP لمطابقة مناطق الصورة مع عناوين نموذجية (template captions)، ثم تدريب نموذجنا مسبقًا لتوحيد أزواج المناطق-النصوص في فضاء الميزات. عند نقل النموذج المُدرّب مسبقًا إلى مهام اكتشاف الكائنات ذات القاموس المفتوح (open-vocabulary object detection)، تتفوق طريقة我们的 بشكل كبير على الحد الأقصى الحالي بنسبة 3.8 نقطة في AP50 ونقطة 2.2 في AP على بيانات COCO وLVIS على التوالي. علاوة على ذلك، تدعم التمثيلات الإقليمية المُكتسبة الاستنتاج بدون تدريب (zero-shot inference) في اكتشاف الكائنات، وتكشف عن نتائج واعدة على كل من مجموعتي بيانات COCO وLVIS. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/microsoft/RegionCLIP.