استغلال البيانات غير المُعلَّمة باستخدام نماذج الرؤية واللغة للكشف عن الكائنات

يُعد بناء أطر اكتشاف الكائنات القوية والشاملة مطلوبًا توسّعًا إلى فضاءات تسمية أكبر وبيانات تدريب أكبر. ومع ذلك، فإن اكتساب التسميات لآلاف الفئات على نطاق واسع يُعد مكلفًا بشكل لا يمكن تحمّله. نقترح طريقة جديدة تستفيد من الدلالات الغنية المتاحة في النماذج الحديثة التي تدمج الرؤية واللغة لتحديد مواقع الكائنات وتصنيفها في الصور غير المُعلّمة، مما يُنتج بشكل فعّال تسميات افتراضية (Pseudo Labels) للاكتشاف الكائني. نبدأ بآلية اقتراح مناطق عامة وغير مُخصصة لفئة معينة، ثم نستخدم النماذج التي تدمج الرؤية واللغة لتصنيف كل منطقة في الصورة إلى أي فئة كائنية مطلوبة للمهام اللاحقة. نُظهر القيمة المضافة للعلامات الافتراضية المُولّدة في مهام محددة، ألا وهي: اكتشاف فضاء مفتوح (Open-Vocabulary Detection)، حيث يجب على النموذج التعميم على فئات كائنية غير مرئية، واكتشاف كائني شبه مُعلّم (Semi-Supervised Object Detection)، حيث يمكن استخدام صور إضافية غير مُعلّمة لتحسين الأداء. تُظهر تقييماتنا التجريبية فعالية العلامات الافتراضية في كلا المهمتين، حيث نتفوّق على النماذج التنافسية ونحقق حالة جديدة من أفضل الأداء في اكتشاف الكائنات بفضاء مفتوح. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/xiaofeng94/VL-PLM.