HyperAIHyperAI

Command Palette

Search for a command to run...

SemiVL: التصنيف الشبكي شبه المُراقب مع التوجيه البصري-اللغوي

Lukas Hoyer David Joseph Tan Muhammad Ferjad Naeem Luc Van Gool Federico Tombari

الملخص

في التصنيف الشامل شبه المُراقب، يتم تدريب نموذج باستخدام عدد محدود من الصور المُعلمة جنبًا إلى جنب مع مجموعة كبيرة من الصور غير المُعلمة لتقليل الجهد الكبير المطلوب في التصنيف اليدوي. وعلى الرغم من أن الأساليب السابقة قادرة على تعلم حدود تجزئة جيدة، إلا أنها عرضة لخلط الفئات ذات المظهر البصري المشابه بسبب قلة الإشراف. من ناحية أخرى، تتمتع النماذج البصرية-اللغوية (VLMs) بقدرة على استخلاص معرفة شمولية معنوية من مجموعات بيانات الصور-العناوين، لكنها تُنتج تجزئة مشوّشة بسبب التدريب على مستوى الصورة. في نموذج SemiVL، نقترح دمج معرفة أولية غنية مستمدة من التدريب المسبق للنماذج البصرية-اللغوية في التصنيف الشامل شبه المُراقب، بهدف تعلم حدود قرار معنوية أفضل. ولتكيف النموذج البصري-اللغوي من التفكير الشامل إلى التفكير المحلي، نقدّم استراتيجية تحسين مكاني لتعلم فعّال من خلال العلامات. علاوةً على ذلك، نصمم فكّاً موجّهاً باللغة لاستنتاج مشترك بين الرؤية واللغة. وأخيرًا، نقترح التعامل مع الغموض الداخلي في العلامات الفئوية من خلال تزويد النموذج بتوجيه لغوي على شكل تعريفات للصفات. وقد تم تقييم SemiVL على أربع مجموعات بيانات للتصنيف الشامل، حيث تفوق بشكل ملحوظ على الأساليب السابقة شبه المُراقبة. على سبيل المثال، يُحسّن SemiVL الحالة الراهنة بنسبة +13.5 نقطة mIoU على مجموعة بيانات COCO باستخدام 232 صورة مُعلمة، وبنسبة +6.1 نقطة mIoU على مجموعة بيانات Pascal VOC باستخدام 92 علامة فقط. صفحة المشروع: https://github.com/google-research/semivl


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SemiVL: التصنيف الشبكي شبه المُراقب مع التوجيه البصري-اللغوي | مستندات | HyperAI