CLIM: مosaic لغوي صوري تناقضي لتمثيل المنطقة

لكشف الكائنات بدقة من مفردات كبيرة أو مفتوحة يتطلب توجيهًا بين الرؤية واللغة في تمثيلات المناطق. ومع ذلك، فإن تعلّم هذا التوجيه بين المناطق والنصوص يتطلب الحصول على تسميات صندوقية عالية الجودة مصحوبة بنصوص أو وصفات، وهو ما يُعد مكلفًا وغير عملي. في المقابل، جمع أزواج الصور والنصوص أسهل، لكنه يفتقر إلى معلومات موقع الكائن الدقيقة التي تمكن من ربط المناطق بالنصوص. في هذا البحث، نقترح منهجية جديدة تُسمى "موزاييك اللغة والصورة التباينية" (CLIM)، والتي تستفيد بشكل فعّال من أزواج الصور والنصوص على نطاق واسع لتوحيد تمثيلات المناطق والنصوص. يقوم CLIM بدمج عدة صور في صورة موزاييك واحدة، ويُعامل كل صورة كـ "منطقة افتراضية". ثم يتم استخراج السمة لكل منطقة افتراضية، وتدريبها لتكون مشابهة لتمثيل النص المقابل لها، ومتباينة عن سمات النصوص الأخرى باستخدام خسارة تباينية، مما يمكّن النموذج من تعلّم التوجيه بين المنطقة والنص دون الحاجة إلى تسميات صندوقية مكلفة. وباعتباره منهجية قابلة للتطبيق بشكل عام، يُحسّن CLIM باستمرار أساليب مختلفة للكشف عن الكائنات ذات المفردات المفتوحة التي تعتمد على الإشراف بالوصف. علاوةً على ذلك، يمكن لـ CLIM تحسين تمثيلات المناطق في النماذج الرؤية-اللغة بشكل فعّال، مما يوفر هيكلًا قويًا أكثر للنماذج الكاشفة للكائنات ذات المفردات المفتوحة. تُظهر النتائج التجريبية أن CLIM يُحسّن النماذج الأساسية للكشف عن الكائنات ذات المفردات المفتوحة بشكل كبير على معايير OV-COCO وOV-LVIS. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/wusize/CLIM.