GroupViT: التجزئة الدلالية تظهر من الإشراف النصي

التجميع والتمييز هما مكونان مهمان في فهم المشهد البصري، مثل الكشف عن الأشياء والتقسيم الدلالي. في أنظمة التعلم العميق من النهاية إلى النهاية، يحدث تجميع المناطق الصورية عادةً بشكل ضمني عبر الرقابة من الأعلى إلى الأسفل من علامات التعرف على مستوى البكسل. بدلاً من ذلك، في هذا البحث، نقترح إعادة إدخال آلية التجميع إلى الشبكات العميقة، مما يسمح بظهور المقاطع الدلالية تلقائيًا باستخدام الإشراف النصي فقط. نقترح استخدام محول رؤية تجميعي متدرج (GroupViT)، الذي يتخطى تمثيل هيكل الشبكة المنتظم ويتعلم كيفية تجميع المناطق الصورية إلى مقاطع ذات أشكال عشوائية أكبر تدريجيًا. نقوم بتدريب GroupViT مع مُشفر نصي بشكل مشترك على مجموعة بيانات صور ونصوص كبيرة الحجم عبر خسائر مقارنة. بدون أي علامات على مستوى البكسل وباستخدام الإشراف النصي فقط، يتعلم GroupViT تجميع المناطق الدلالية معًا وينجح في الانتقال إلى مهمة التقسيم الدلالي بطريقة صفرية (zero-shot)، أي دون أي تعديل دقيق إضافي. يصل دقة الانتقال الصوري الصفرية (zero-shot) لـ GroupViT إلى 52.3% mIoU على مجموعة بيانات PASCAL VOC 2012 و 22.4% mIoU على مجموعة بيانات PASCAL Context، ويؤدي بشكل تنافسي مقارنة بالطرق الحديثة للتعلم بالنقل التي تتطلب مستويات أعلى من الإشراف. قمنا بإتاحة شفرتنا المصدرية بشكل حر على الرابط: https://github.com/NVlabs/GroupViT .