HyperAIHyperAI

Command Palette

Search for a command to run...

محاذاة حزمة المناطق للكشف عن الكائنات بتصنيف مفتوح

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

الملخص

تتعلم نماذج الرؤية واللغة المُدرَّبة مسبقًا (VLMs) مواءمة تمثيلات الرؤية واللغة على مجموعات بيانات ضخمة، حيث يحتوي كل زوج صورة-نص عادةً على مجموعة من المفاهيم الدلالية. ومع ذلك، فإن الكاشفات المفتوحة المُفتوحة للرؤية (open-vocabulary object detectors) الحالية تقوم فقط بموازنة تضمينات المناطق بشكل فردي مع الميزات المستخرجة من نماذج VLMs. ويؤدي هذا التصميم إلى إهمال البنية التراكيبية للمفاهيم الدلالية في المشهد، رغم أن هذه البنية قد تُتعلم ضمنيًا من قبل نماذج VLMs. في هذه الدراسة، نقترح موازنة تضمينات "مجموعة من المناطق" (bag of regions) بخلاف التضمينات الفردية للمناطق. وتعمل الطريقة المقترحة على تجميع المناطق المرتبطة سياقيًا في مجموعة واحدة. ويُعامل تضمينات المناطق داخل المجموعة كتضمينات كلمات في جملة، ثم تُرسل إلى مشفر النص في نموذج VLM للحصول على تضمين "مجموعة المناطق"، والذي يُدرَّس ليتم موازنته مع الميزات المُستخرجة بواسطة نموذج VLM متجمد. عند تطبيقها على أسلوب Faster R-CNN الشائع، تتفوّق الطريقة المقترحة على أفضل نتائج سابقة بـ 4.6 نقطة في مقياس AP50 للصندوق و2.8 نقطة في مقياس AP للقناع على الفئات الجديدة في معايير COCO وLVIS المفتوحة للرؤية، على التوالي. يُمكن الاطلاع على الكود والنماذج عبر الرابط: https://github.com/wusize/ovdet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp