HyperAIHyperAI
منذ 11 أيام

SemiVL: التصنيف الشبكي شبه المُراقب مع التوجيه البصري-اللغوي

Lukas Hoyer, David Joseph Tan, Muhammad Ferjad Naeem, Luc Van Gool, Federico Tombari
SemiVL: التصنيف الشبكي شبه المُراقب مع التوجيه البصري-اللغوي
الملخص

في التصنيف الشامل شبه المُراقب، يتم تدريب نموذج باستخدام عدد محدود من الصور المُعلمة جنبًا إلى جنب مع مجموعة كبيرة من الصور غير المُعلمة لتقليل الجهد الكبير المطلوب في التصنيف اليدوي. وعلى الرغم من أن الأساليب السابقة قادرة على تعلم حدود تجزئة جيدة، إلا أنها عرضة لخلط الفئات ذات المظهر البصري المشابه بسبب قلة الإشراف. من ناحية أخرى، تتمتع النماذج البصرية-اللغوية (VLMs) بقدرة على استخلاص معرفة شمولية معنوية من مجموعات بيانات الصور-العناوين، لكنها تُنتج تجزئة مشوّشة بسبب التدريب على مستوى الصورة. في نموذج SemiVL، نقترح دمج معرفة أولية غنية مستمدة من التدريب المسبق للنماذج البصرية-اللغوية في التصنيف الشامل شبه المُراقب، بهدف تعلم حدود قرار معنوية أفضل. ولتكيف النموذج البصري-اللغوي من التفكير الشامل إلى التفكير المحلي، نقدّم استراتيجية تحسين مكاني لتعلم فعّال من خلال العلامات. علاوةً على ذلك، نصمم فكّاً موجّهاً باللغة لاستنتاج مشترك بين الرؤية واللغة. وأخيرًا، نقترح التعامل مع الغموض الداخلي في العلامات الفئوية من خلال تزويد النموذج بتوجيه لغوي على شكل تعريفات للصفات. وقد تم تقييم SemiVL على أربع مجموعات بيانات للتصنيف الشامل، حيث تفوق بشكل ملحوظ على الأساليب السابقة شبه المُراقبة. على سبيل المثال، يُحسّن SemiVL الحالة الراهنة بنسبة +13.5 نقطة mIoU على مجموعة بيانات COCO باستخدام 232 صورة مُعلمة، وبنسبة +6.1 نقطة mIoU على مجموعة بيانات Pascal VOC باستخدام 92 علامة فقط. صفحة المشروع: https://github.com/google-research/semivl

SemiVL: التصنيف الشبكي شبه المُراقب مع التوجيه البصري-اللغوي | أحدث الأوراق البحثية | HyperAI