تعلم التحكم المكاني باستخدام الإشراف على مستوى الصورة لتصنيف الصور متعددة العلامات

تصنيف الصور متعدد العلامات هو مهمة أساسية ولكنها صعبة في مجال رؤية الحاسوب. لقد تحقق تقدم كبير في السنوات الأخيرة من خلال استغلال العلاقات الدلالية بين العلامات. ومع ذلك، فإن الأساليب التقليدية غير قادرة على نمذجة العلاقات المكانية الكامنة بين العلامات في الصور متعددة العلامات، لأن التسميات المكانية للعلامات لا تُوفر عادةً. في هذا البحث، نقترح شبكة عصبية عميقة موحدة تستغل كلًا من العلاقات الدلالية والمكانية بين العلامات باستخدام الإشراف على مستوى الصورة فقط. عند تقديم صورة متعددة العلامات، تقوم شبكتنا المقترحة لتنظيم الفضاء (Spatial Regularization Network - SRN) بإنشاء خرائط الاهتمام لكل العلامات وتقاطع العلاقات الكامنة بينها عبر التحويلات القابلة للتعلم. بدمج النتائج المصنفة المنظمة مع النتائج الأصلية بواسطة شبكة ResNet-101، يمكن تحسين أداء التصنيف بشكل مستمر. يتم تدريب الشبكة العصبية العميقة بأكملها بطريقة شاملة باستخدام الإشراف على مستوى الصورة فقط، مما يعني أنها لا تتطلب جهودًا إضافية في تسمية الصور. أظهرت التقييمات الواسعة على ثلاثة مجموعات بيانات عامة تحتوي على أنواع مختلفة من العلامات أن نهجنا يتفوق بشكل كبير على أفضل الأساليب الحالية ويتمتع بقدرة تعميم قوية. يوضح تحليل النموذج الذي تم تعلمه لـ SRN أنه يمكنه التقاط كلًا من العلاقات الدلالية والمكانية للعلامات بكفاءة لتحسين أداء التصنيف.