HyperAIHyperAI
منذ 11 أيام

استغلال البيانات غير المُعلَّمة باستخدام نماذج الرؤية واللغة للكشف عن الكائنات

Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas
استغلال البيانات غير المُعلَّمة باستخدام نماذج الرؤية واللغة للكشف عن الكائنات
الملخص

يُعد بناء أطر اكتشاف الكائنات القوية والشاملة مطلوبًا توسّعًا إلى فضاءات تسمية أكبر وبيانات تدريب أكبر. ومع ذلك، فإن اكتساب التسميات لآلاف الفئات على نطاق واسع يُعد مكلفًا بشكل لا يمكن تحمّله. نقترح طريقة جديدة تستفيد من الدلالات الغنية المتاحة في النماذج الحديثة التي تدمج الرؤية واللغة لتحديد مواقع الكائنات وتصنيفها في الصور غير المُعلّمة، مما يُنتج بشكل فعّال تسميات افتراضية (Pseudo Labels) للاكتشاف الكائني. نبدأ بآلية اقتراح مناطق عامة وغير مُخصصة لفئة معينة، ثم نستخدم النماذج التي تدمج الرؤية واللغة لتصنيف كل منطقة في الصورة إلى أي فئة كائنية مطلوبة للمهام اللاحقة. نُظهر القيمة المضافة للعلامات الافتراضية المُولّدة في مهام محددة، ألا وهي: اكتشاف فضاء مفتوح (Open-Vocabulary Detection)، حيث يجب على النموذج التعميم على فئات كائنية غير مرئية، واكتشاف كائني شبه مُعلّم (Semi-Supervised Object Detection)، حيث يمكن استخدام صور إضافية غير مُعلّمة لتحسين الأداء. تُظهر تقييماتنا التجريبية فعالية العلامات الافتراضية في كلا المهمتين، حيث نتفوّق على النماذج التنافسية ونحقق حالة جديدة من أفضل الأداء في اكتشاف الكائنات بفضاء مفتوح. يمكن الوصول إلى الكود الخاص بنا من خلال الرابط التالي: https://github.com/xiaofeng94/VL-PLM.

استغلال البيانات غير المُعلَّمة باستخدام نماذج الرؤية واللغة للكشف عن الكائنات | أحدث الأوراق البحثية | HyperAI