HyperAIHyperAI
منذ 11 أيام

محاذاة حزمة المناطق للكشف عن الكائنات بتصنيف مفتوح

Size Wu, Wenwei Zhang, Sheng Jin, Wentao Liu, Chen Change Loy
محاذاة حزمة المناطق للكشف عن الكائنات بتصنيف مفتوح
الملخص

تتعلم نماذج الرؤية واللغة المُدرَّبة مسبقًا (VLMs) مواءمة تمثيلات الرؤية واللغة على مجموعات بيانات ضخمة، حيث يحتوي كل زوج صورة-نص عادةً على مجموعة من المفاهيم الدلالية. ومع ذلك، فإن الكاشفات المفتوحة المُفتوحة للرؤية (open-vocabulary object detectors) الحالية تقوم فقط بموازنة تضمينات المناطق بشكل فردي مع الميزات المستخرجة من نماذج VLMs. ويؤدي هذا التصميم إلى إهمال البنية التراكيبية للمفاهيم الدلالية في المشهد، رغم أن هذه البنية قد تُتعلم ضمنيًا من قبل نماذج VLMs. في هذه الدراسة، نقترح موازنة تضمينات "مجموعة من المناطق" (bag of regions) بخلاف التضمينات الفردية للمناطق. وتعمل الطريقة المقترحة على تجميع المناطق المرتبطة سياقيًا في مجموعة واحدة. ويُعامل تضمينات المناطق داخل المجموعة كتضمينات كلمات في جملة، ثم تُرسل إلى مشفر النص في نموذج VLM للحصول على تضمين "مجموعة المناطق"، والذي يُدرَّس ليتم موازنته مع الميزات المُستخرجة بواسطة نموذج VLM متجمد. عند تطبيقها على أسلوب Faster R-CNN الشائع، تتفوّق الطريقة المقترحة على أفضل نتائج سابقة بـ 4.6 نقطة في مقياس AP50 للصندوق و2.8 نقطة في مقياس AP للقناع على الفئات الجديدة في معايير COCO وLVIS المفتوحة للرؤية، على التوالي. يُمكن الاطلاع على الكود والنماذج عبر الرابط: https://github.com/wusize/ovdet.

محاذاة حزمة المناطق للكشف عن الكائنات بتصنيف مفتوح | أحدث الأوراق البحثية | HyperAI